Perl で UTF-8 の文字列を分割するためのヒント
忘れないうちにメモ。
Corrigendum #1: UTF-8 Shortest Form
UTF-8 の文字ひと文字は、Perl の正規表現で、
[\x00-\x7F]|
[\xC2-\xDF][\x80-\xBF]|
[\xE0][\xA0-\xBF][\x80-\xBF]|
[\xE1-\xEF][\x80-\xBF][\x80-\xBF]|
[\xF0][\x90-\xBF][\x80-\xBF][\x80-\xBF]|
[\xF1-\xF3][\x80-\xBF][\x80-\xBF][\x80-\xBF]|
[\xF4][\x80-\x8F][\x80-\xBF][\x80-\xBF]
と書けるわけね。文字列の切り取りに便利ですね。
Technorati Tags: perl, utf-8
Corrigendum #1: UTF-8 Shortest Form
UTF-8 の文字ひと文字は、Perl の正規表現で、
[\x00-\x7F]|
[\xC2-\xDF][\x80-\xBF]|
[\xE0][\xA0-\xBF][\x80-\xBF]|
[\xE1-\xEF][\x80-\xBF][\x80-\xBF]|
[\xF0][\x90-\xBF][\x80-\xBF][\x80-\xBF]|
[\xF1-\xF3][\x80-\xBF][\x80-\xBF][\x80-\xBF]|
[\xF4][\x80-\x8F][\x80-\xBF][\x80-\xBF]
と書けるわけね。文字列の切り取りに便利ですね。
Technorati Tags: perl, utf-8
0 comment(s):
Post a comment
<< Home