クリボウの Bookmarks

2006-02-05

Perl で UTF-8 の文字列を分割するためのヒント

忘れないうちにメモ。
Corrigendum #1: UTF-8 Shortest Form

UTF-8 の文字ひと文字は、Perl の正規表現で、

[\x00-\x7F]|
[\xC2-\xDF][\x80-\xBF]|
[\xE0][\xA0-\xBF][\x80-\xBF]|
[\xE1-\xEF][\x80-\xBF][\x80-\xBF]|
[\xF0][\x90-\xBF][\x80-\xBF][\x80-\xBF]|
[\xF1-\xF3][\x80-\xBF][\x80-\xBF][\x80-\xBF]|
[\xF4][\x80-\x8F][\x80-\xBF][\x80-\xBF]

と書けるわけね。文字列の切り取りに便利ですね。


Technorati Tags: ,


0 comment(s):

Post a comment

<< Home


© Kuribo, 2005 - 2009