post by yamamoto | 0 | 883 views

perl memo UTF-8 文字列の検索

ある UTF-8 のファイルの中身に下記のような簡体字中国語があります。

ーーーーーーーーーーー

14.7.4
间气 qi at sides
左右间气
客气中在司天之气和在泉之气左右的气。司天之气的左间右间和在泉之气的左间右间,合之为四间气。

ーーーーーーーーーーー

そこで「。」がない行とある行と区別するため、index 関数を使ってみました。

すると、

# $line はファイルから読み込んだ1行とする

index($line,"。") は全部 -1 が戻されますが、

index(Encode::decode_utf8($line),"。") がちゃんとポジションの数字が戻されます。

Comments are closed.