文字とはなにか - PHPの文字コード処理について - PHP Lovers Meetup #5

文字とはなにか - PHPの文字コード処理について - Ginaさんようこそバージョン

自己紹介てきめん (tekimen) Yuya Hamada（濱田侑弥） • https://tekitoh-memdhoi.info • X(twitter):
@youkidearitai • https://github.com/youkidearitai • https://mstdn.jp/tekimen • https://phpc.social/youkidearitai • サイボウズ株式会社に所属してますオレ

まずはじめに mb_ucfirst関数とmb_lcfirst関数がマージされました！

コンピューターで文字を表すの基本 • コンピューターは数値しか扱えません • そこで、とある数値をAなどと紐づけていきました • それが文字コードです • 文字コードに照らし合わせて文字を表示してくれるのがフォントですね

Unicodeがよい • ざっくり言ってしまうとUnicodeはいいぞ • 文字化けから開放してくれたぞ！ってなる • 絵文字も使えるぞ 🎉🎉

Unicodeって何？ • 世界中のすべての文字を収録しようというもの – ISO/IEC 10646 という工業規格があって、Unicodeと等しくなるようになっています • JIS
X 0221が現在の日本の工業規格(JIS)での規格です – Unicodeのバージョンに伴って、収録されていく文字が増えています

UnicodeとJIS X 0221との関係 Unicode ISO/IEC 10646 JIS X 0221 同期
日本版 ※各仕様書を読んだらこの図になりましたが「プログラマのための文字コード技術入門」もほぼ同じ図になっていました

Unicodeのバージョンについて • 現在最新版は15.1です。 • 2024年ではUnicode 16.0にむけて作業が進められています – http://blog.unicode.org/
2023/11/utc-177-highlig hts.html – alphaがリリースされました

絵文字の存在 • バージョンなんてどうでも良くね？と思いがちですが、実はそうもいかないのです • みなさんはこんなことはありませんか？ – 私の推しマークはです、時々違う方がいます。気をつ 🩵
けてくださいなどと呼びかけているアイドルさん – 🙇 と♂♀が分割してた

スマートフォンは絵文字を入力しやすい • スマートフォンならば簡単に絵文字を選んで入力することができます • 新しいスマートフォンほど新しい絵文字を入力しやすくなります • その一方で、大切に長くスマートフォンを使っている人もいます

その結果起こること • Unicodeのバージョンに気を使う必要があります – 古いスマートフォンでは絵文字が見えなかったり、分かれて見えたりします – 新しいスマートフォンでは当たり前のように新しい Unicodeのバージョンの絵文字が使えます

🩵はどうでしょうか • https://emojipedia.org/ja/%E6%B0%B4%E8% 89%B2%E3%81%AE%E3%83%8F%E3%83%BC %E3%83%88 • どうやらUnicode 15.0で入ったようです – 2023年現在の最新バージョンは15.1です
– かなり新しい絵文字です – 古いスマートフォンでは見えないでしょうね…

🙇と♂♀が分割してた • このケースの場合、土下座をしている人と♂や♀のマークが分割して見えることがあります • 対応している機種であれば、「」、「」と表示され 🙇‍♂️ 🙇‍♀️
ます • いきなりですがPHPでmb_strlenしてみましょう

mb_strlenした結果 • 1文字のハズなのに、4とでましたね – つまり、4つのコードポイントがあるということになります – mb_str_splitもしてみましょう

mb_str_splitした結果このように、4つのコードポイントに分かれていることがわかりますし、と♂が別れています 🙇

コードポイントとは • UnicodeでいうコードポイントとはU+1234などと記す符号位置で、16進数で表します • mbstringではこの単位で測っていきます

コードポイントは？ 2コードポイント目がU+200D、4コードポイント目がU+FE0Fです

それぞれの意味 • U+200Dはゼロ幅接合子などと呼ばれており、Zero Width Joinerの略でZWJと言います • U+FE0Fは異体字セレクタと言い、U+FE00から U+FE0Fまでの範囲16文字を使って絵文字のバリエーションを表現します
• https://www.unicode.org/glossary/#variation _selector

異体字セレクタについて • 漢字でも使われています – Ideographic Variation Sequence(漢字(表意文字)異体字シーケンス、IVS)と呼ばれています – 範囲はU+E0100からU+E01EFです
– 組み合わせを定義するのがIVS、字形を定義するデータベースをIVD(Ideographic Variation Database)といいます – https://www.unicode.org/reports/tr37/

漢字の異体字セレクタについて • 例えば「邉」 CJK UNIFIED IDEOGRAPH-9089 – https://glyphwiki.org/wiki/u908a-ue0104 – https://747.codeberg.page/vsselector/#!/ja/9089
– 邉邉󠄀 邉󠄁 邉󠄂 邉󠄃 邉󠄄 邉󠄅 邉󠄆 邉󠄈 邉󠄉 邉󠄊 邉󠄋 邉󠄌 邉󠄍 邉󠄎 … • 游ゴシック体で表示させました • すべて違う異体字です • 同じ漢字に見えるのもあれば違うのもありますね

絵文字に戻っておさらいしましょう

mb_str_splitした結果見えないほうはそのようにちがうわけですねゼロ幅接合子 (ZWJ) U+200D （絵文字の）異体字セレクタ U+FE0F

どうすれば1文字として測れますか？

ICUというライブラリを使います • Grapheme cluster(グラフィム、書記素クラスター)単位で測れば良い – それを格納しているのがICU – 結局データベースから測らないといけないのです •
PHPではintl拡張に入っています – --enable-intlとしてコンパイルしましょう – grapheme_strlenを使えば測れます • https://www.php.net/grapheme_strlen

PCRE(preg系関数)も使えます • PCREも書記素クラスター単位での検出ができます • \Xを使用します • https://www.pcre.or g/original/doc/html/
pcrepattern.html

grapheme_strlenした結果このようにして、書記素クラスターを正しく数えることができるわけですね

濁音・半濁音の場合

本来の濁音と半濁音 • JIS X 0201ではｶﾞのように文字と濁音が別々（いわゆる半角カナ） • JIS X 0208ではガのように、独立した文字も収録された
• Unicodeでは独立した文字も別にできたりする – ガが果たしてU+30ACなのか、U+30ABとU+3099の両方なのかが一見するとわからない – それを統一するのが「正規化」と呼ばれる

正規化の方法 • 正規化方式D(NFD) – $ sapi/cli/php -r 'var_dump(Normalizer::normalize("ガ", Normalizer::NFD));' string(6)
"ガ" # カと濁音が分割されている • 正規化方式C(NFC) – $ sapi/cli/php -r 'var_dump(Normalizer::normalize("ガ", Normalizer::NFC));' string(3) "ガ" • 正規化方式KD(NFKD) – $ sapi/cli/php -r 'var_dump(Normalizer::normalize("ガ", Normalizer::NFKD));' string(6) "ガ" # カと濁音が分割されている • 正規化方式KC(NFKC) – $ sapi/cli/php -r 'var_dump(Normalizer::normalize("ガ", Normalizer::NFKC));' string(3) "ガ" • PHPではintlの Normalizerクラスを使います • 正規化方式も4種あるのでその時適切な正規化方式を選択する必要があります

正規化で戸惑う例 • 例えばハングルの「アニョハセヨ」（こんにちは）を正規化 D(NFD)をすると、ハングルの音節がバラバラに分解されてしまいます（ちゃんと表示できる場合もありますが） • 参考：
https://www.unicode.org/c harts/normalization/ \

まとめ • Unicodeにはバージョンがあることがわかりました • バージョンによって絵文字が表示されないことがわかりました • ZWJ、異体字セレクタなどで必ずしも1コードポイントに収まらないことがわかりました • 濁音・半濁音は色々な方法の組み合わせがあることがわかりました •
PHPのUnicodeの対応具合がわかりました – mbstringでは1コードポイントごと、intlとPCREでは書記素クラスターとして測れる • 正規化は複雑すぎる、触れないでおければ幸せ • Unicodeは知ることが多いことがわかり、わからないことがわかりました – たとえば、不正なバイトシーケンスとか喋ってないですね？ – あなたが知っていることがあったら、教えてください！

提案 • PHPのGrapheme関数には、文字列の処理関数が少ないように見えます • 少なくとも、mb_str_split相当の書記素クラスターごとにarrayで返却できるとarray関数で処理できてよいのではと思いますがどうでしょう？ • つまり、grapheme_str_splitが必要なのではないかということです
– 絵文字などを「一文字」として配列として分割するというものです – RFCを作りました https://wiki.php.net/rfc/grapheme_str_split

参照 • http://www.unicode.org/L2/L2016/16181-gender-zwj-sequences.pdf • https://ja.wikipedia.org/wiki/%E3%82%BC%E3%83%AD%E5%B9%85%E6%8E%A5 %E5%90%88%E5%AD%90 • https://www.unicode.org/glossary/#variation_selector • https://www.unicode.org/glossary/#ideographic_variation_sequence
• https://www.unicode.org/reports/tr37/ • https://ja.wikipedia.org/wiki/%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%B B%E3%83%AC%E3%82%AF%E3%82%BF#%E7%A8%AE%E9%A1%9E • https://emojipedia.org/ja/emoji-15.0 • https://747.codeberg.page/vsselector/#!/ja/9089 • https://glyphwiki.org/wiki/u908a-ue0104 • https://www.php.net/grapheme_strlen

文字とはなにか - PHPの文字コード処理について - PHP Lovers Meetup #5

文字とはなにか - PHPの文字コード処理について - PHP Lovers Meetup #5

てきめん tekimen PRO

More Decks by てきめん tekimen

Featured

Transcript

文字とはなにか - PHPの文字コード処理について - Ginaさんようこそバージョン

自己紹介てきめん (tekimen) Yuya Hamada（濱田侑弥） • https://tekitoh-memdhoi.info • X(twitter):

まずはじめに mb_ucfirst関数とmb_lcfirst関数がマージされました！

Unicodeがよい • ざっくり言ってしまうとUnicodeはいいぞ • 文字化けから開放してくれたぞ！ってなる • 絵文字も使えるぞ 🎉🎉

Unicodeって何？ • 世界中のすべての文字を収録しようというもの – ISO/IEC 10646 という工業規格があって、Unicodeと等しくなるようになっています • JIS

UnicodeとJIS X 0221との関係 Unicode ISO/IEC 10646 JIS X 0221 同期

Unicodeのバージョンについて • 現在最新版は15.1です。 • 2024年ではUnicode 16.0にむけて作業が進められています – http://blog.unicode.org/

絵文字の存在 • バージョンなんてどうでも良くね？と思いがちですが、実はそうもいかないのです • みなさんはこんなことはありませんか？ – 私の推しマークはです、時々違う方がいます。気をつ 🩵

🩵はどうでしょうか • https://emojipedia.org/ja/%E6%B0%B4%E8% 89%B2%E3%81%AE%E3%83%8F%E3%83%BC %E3%83%88 • どうやらUnicode 15.0で入ったようです – 2023年現在の最新バージョンは15.1です

🙇と♂♀が分割してた • このケースの場合、土下座をしている人と♂や♀のマークが分割して見えることがあります • 対応している機種であれば、「」、「」と表示され 🙇‍♂️ 🙇‍♀️

mb_strlenした結果 • 1文字のハズなのに、4とでましたね – つまり、4つのコードポイントがあるということになります – mb_str_splitもしてみましょう

mb_str_splitした結果このように、4つのコードポイントに分かれていることがわかりますし、と♂が別れています 🙇

コードポイントとは • UnicodeでいうコードポイントとはU+1234などと記す符号位置で、16進数で表します • mbstringではこの単位で測っていきます

コードポイントは？ 2コードポイント目がU+200D、4コードポイント目がU+FE0Fです

それぞれの意味 • U+200Dはゼロ幅接合子などと呼ばれており、Zero Width Joinerの略でZWJと言います • U+FE0Fは異体字セレクタと言い、U+FE00から U+FE0Fまでの範囲16文字を使って絵文字のバリエーションを表現します

異体字セレクタについて • 漢字でも使われています – Ideographic Variation Sequence(漢字(表意文字)異体字シーケンス、IVS)と呼ばれています – 範囲はU+E0100からU+E01EFです

漢字の異体字セレクタについて • 例えば「邉」 CJK UNIFIED IDEOGRAPH-9089 – https://glyphwiki.org/wiki/u908a-ue0104 – https://747.codeberg.page/vsselector/#!/ja/9089

絵文字に戻っておさらいしましょう

mb_str_splitした結果見えないほうはそのようにちがうわけですねゼロ幅接合子 (ZWJ) U+200D （絵文字の）異体字セレクタ U+FE0F

どうすれば1文字として測れますか？

ICUというライブラリを使います • Grapheme cluster(グラフィム、書記素クラスター)単位で測れば良い – それを格納しているのがICU – 結局データベースから測らないといけないのです •

PCRE(preg系関数)も使えます • PCREも書記素クラスター単位での検出ができます • \Xを使用します • https://www.pcre.or g/original/doc/html/

grapheme_strlenした結果このようにして、書記素クラスターを正しく数えることができるわけですね

濁音・半濁音の場合

本来の濁音と半濁音 • JIS X 0201ではｶﾞのように文字と濁音が別々（いわゆる半角カナ） • JIS X 0208ではガのように、独立した文字も収録された

正規化の方法 • 正規化方式D(NFD) – $ sapi/cli/php -r 'var_dump(Normalizer::normalize("ガ", Normalizer::NFD));' string(6)

正規化で戸惑う例 • 例えばハングルの「アニョハセヨ」（こんにちは）を正規化 D(NFD)をすると、ハングルの音節がバラバラに分解されてしまいます（ちゃんと表示できる場合もありますが） • 参考：

参照 • http://www.unicode.org/L2/L2016/16181-gender-zwj-sequences.pdf • https://ja.wikipedia.org/wiki/%E3%82%BC%E3%83%AD%E5%B9%85%E6%8E%A5 %E5%90%88%E5%AD%90 • https://www.unicode.org/glossary/#variation_selector • https://www.unicode.org/glossary/#ideographic_variation_sequence