Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
フロントエンドとバックエンドで「1文字」を揃えよう
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
てきめん tekimen
PRO
June 04, 2026
Programming
710
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
フロントエンドとバックエンドで「1文字」を揃えよう
てきめん tekimen
PRO
June 04, 2026
More Decks by てきめん tekimen
See All by てきめん tekimen
ChatGPTを使ってRaspberry Pi Picoの処理系を書いた
youkidearitai
PRO
0
88
PHP Internals わいわい #3 PIEを使ってみよう
youkidearitai
PRO
0
61
grapheme_strrev関数が採択されました(あと雑感)
youkidearitai
PRO
1
320
Limit of code point for grapheme cluster in programming language side.
youkidearitai
PRO
0
84
Unicodeどうしてる? PHPから見たUnicode対応と他言語での対応についてのお伺い
youkidearitai
PRO
2
3.5k
PHP 8.5の裏話
youkidearitai
PRO
0
150
CJK and Unicode From a PHP Committer
youkidearitai
PRO
0
330
PHP Internals わいわい #3 mb_*関数を作ってみよう
youkidearitai
PRO
0
160
Windows版php-srcデバッグ方法
youkidearitai
PRO
1
130
Other Decks in Programming
See All in Programming
IBM Bobを活用したレガシーアプリの最新化
oniak3ibm
PRO
1
200
Honoでのサプライチェーン侵害対策 〜 3つのライブラリに学ぶ
yusukebe
6
1.3k
PHPで使える日時の表現と、その知り方 #frontend_phpcon_do
o0h
PRO
0
250
Strategic Design in the Frontend: Moduliths & Micro Frontends @DDDEurope
manfredsteyer
PRO
0
110
Observability in Practice:Grafana 與 Edge Device SRE 的那些事
blueswen
0
170
Developing with AI Agents — Codex, Claude Code & Cowork Practical Guide
x5gtrn
PRO
0
1.3k
Make SRE Operations Easier with Azure SRE Agent
kkamegawa
0
6.5k
Mujeres en SEO Summit 2026 - Greatest Disaster Hits en Web Performance
guaca
0
180
「AIで開発し、AIを届ける」をEvalでつなぐ 〜AIネイティブに始めるプロダクト開発の実践〜 / Connecting "Develop with AI, deliver AI" with Eval
rkaga
4
5.2k
決定論的オーケストレーションの設計と実装 / Design and Implementation of Deterministic Orchestration
nrslib
4
1.4k
TSKaigi Night Talks 2026_TypeScriptでサプライチェーンの整合性を型に閉じ込める
geekplus_tech
0
390
肥大化するレガシーコードに立ち向かうためのインターフェース分離と依存の逆転 / JJUG CCC 2026 Spring
hirokunimaeta
0
570
Featured
See All Featured
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Utilizing Notion as your number one productivity tool
mfonobong
4
320
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
The Invisible Side of Design
smashingmag
302
52k
We Have a Design System, Now What?
morganepeng
55
8.2k
ラッコキーワード サービス紹介資料
rakko
1
3.7M
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
WCS-LA-2024
lcolladotor
0
640
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
600
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
1
1.7k
Transcript
フロントエンドとバックエン ドで「1文字」を揃えよう
自己紹介 てきめん • https://tekitoh-memdhoi.info • https://github.com/youkideari tai • https://phpc.social/@youkide aritai
• PHP コミッター – Mbstring – Unicode オレ
皆に質問です • 1文字とはなんでしょう?
1文字とは • 1バイト • 1コードポイント – 基本多言語面(BMP) – 追加多言語面(1面) –
追加漢字面(2面) – など • 1書記素クラスター
1バイト • ASCIIコードは7ビットを使う • ISO-2022-JPは7ビットを切り替えて使う • 8ビットはISO-8859シリーズで使われたりする
1コードポイント • ここで言うコードポイントとは、Unicodeのコー ドポイント – U+0000 〜 U+10FFFF までの21ビットが入る –
16進数4桁のことを基本多言語面(Basic Multilingual Plane:BMP)という – U+10000〜U+1FFFFのことを「追加多言語面」という – U+20000〜U+2FFFFのことを「追加漢字面」という
なぜ21ビットなのか • Unicodeは最初、16ビットで世界中の字を入れられるとしていたが、その目 論見が見事に失敗したことで、1面以降に文字を追加する羽目になった (Unicode 2.0) • UTF-16ではBMPの中にサロゲートペアを作って対処した – 前16ビット(ハイサロゲート):
U+D800〜U+DBFF (1024(2^10)コードポイント分) – 後ろ16ビット(ローサロゲート): U+DC00〜U+DFFF (1024(2^10)コードポイント 分) – この組み合わせが1048576文字(2^20)分であり、U+10000〜U+10FFFFまでの範 囲となった – なお、サロゲートペアはUTF-16のみの概念で、他文字コードで扱えない (UTF-8、UTF-32) • 結果として21ビットの範囲となった。
UTF-16は極めて重要ではある • サロゲートペアが必要になってしまったUTF-16だ が、JavaScriptやJavaでは内部文字コードは UTF-16である – となると、サロゲートペアの知識も必要になってくる – さっきの話を組み合わせると、第2面(追加漢字面)に存 在する漢字はサロゲートペアが必要ということになる
• サロゲートペアは2コードポイント消費するので2と返る • 例えば「𠮷」(U+20BB7)は’𠮷’.lengthで2
21ビットを丸ごと収録したUTF-32 • 32ビットあれば21ビットまるごと収録できると したのがUTF-32 • 可変長でなくなったので解決したように見える • 短所は21ビットに対して32ビットも使うため、 無駄が多いところ
絵文字の登場 • Unicodeに絵文字が搭載されることになった • まあ、良かったですよ • 1面(追加多言語面)にも入るようになった • それどころの話でもなくなった
複数コードポイント • 🇯🇵 – 国旗は一つのコードポイントではない – 日本の国旗は U+1F1EF U+1F1F5の組み合わせ •
👨👨👦👦 – 家族も同じく複数のコードポイント(+ZWJ)で成り立ってい る – 複数パターンが考えられる(この例では男×4の家族)ので コードポイントの説明は割愛
Zalgo text • ウムラウト(¨)などの発音記号は無限にくっつけら れる – 正規化D(NKD、NKFD)を行うとアルファベットと発音 記号が分離する • Zalgo
textと言う、発音記号を無限にくっつける文 化がある – H̵̛͕̞̦̰̜͍̰̥̟͆̏͂̌͑ͅ ä̷͔̟͓̬̯̟͍̭͉͈̮͙̣̯̬͚̞̭̍̀̾͠m̴̡̧̛̝̯̹̗̹̤̲̺̟̥̈̏͊̔̑̍͆̌̀̚͝͝b̴̢̢̫̝̠̗̼̬̻̮̺̭͔̘͑̆̎̚ ư̵̧̡̥̙̭̿̈̀̒̐̊͒͑ r̷̡̡̲̼̖͎̫̮̜͇̬͌͘g̷̹͍͎̬͕͓͕̐̃̈́̓̆̚͝ẻ̵̡̼̬̥̹͇̭͔̯̉͛̈́̕r̸̮̖̻̮̣̗͚͖̝̂͌̾̓̀̿̔̀͋̈́͌̈́̋͜ • https://en.wikipedia.org/wiki/Zalgo_text
日本語の漢字 • 日本語における漢字は、苗字や地名がバラバラ – 名前は2999文字(2026年現在)しか使えない • MJ文字といって、文字情報基盤によって一応標準化された – Unicodeでは16.0にて収録された –
表意文字たる漢字の難しいところ – 文字は交換可能であるべきだが、字自体にアイデンティティがあ る人もいる • 苗字の漢字の細かいところが違うとなる(縮退) • 正確な形自体は画像などで戸籍に保存されている – 詳細は https://www.digital.go.jp/policies/local_governments/c haracter-specification
異体字セレクタ • 渡邉さんの邉のように、書体が違うものを収録 – 邉 邉 邉󠄁 邉󠄂 邉󠄃 邉󠄄
邉󠄅 邉󠄆 邉󠄈 邉󠄉 邉󠄊 邉󠄋 邉󠄌 邉󠄍 邉󠄎 – 異体字セレクタ(Variable Sequence)という • U+E0100〜U+E01EFまでの範囲 – 葛󠄀城市(かつらぎし:奈良県)と葛飾区(かつしか く:東京都)のように、基底文字の葛は一緒で、違う のは異体字セレクタの番号(葛󠄀: U+845B U+E0100)
これらを何文字と扱うのか • これらを何文字として扱うのか • 書記素クラスターという概念がある – 書記素がもともとの概念で、見た目の1文字 – 絵文字も異体字セレクタも扱える –
Zalgo textは微妙 • 発音記号を無限に被せられるため、書記素クラスターで数えるのは 難しいのではないか? • 絵文字も、家族の絵文字のように無限に被せられる – こっちはまだ絵文字のリストが存在する • https://unicode.org/emoji/charts/full-emoji-list.html
JavaScriptでの扱い方 • Intl.Segmenterを使う – 第二引数に’grapheme’を指定、イテレーターが使 える
コードポイントの測り方 • JavaScriptでBMP外もコードポイントごとに測る場 合 for...of文や[...variable]構文が使える
PHPなど、バックエンドで扱う • PHPではgrapheme_*関数が簡単 – grapheme_str_split関数を追加したので、arrayで書 記素クラスターを扱える
書記素クラスターの弱点 • 弱点というか、考慮しないといけないこと – 1書記素クラスターにはコードポイントの上限はない • 将来的な制限を作りたくないらしい – 書記素クラスターをWebアプリケーションとして使う場合 には入力の長さを測る必要がある
• コードポイント数 • バイト数 – さもないと、「1書記素クラスター、200MBの 」「さっき 👨👨👧👦 のZalgo textのような無限に続く発音記号「ä̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈̈ 」」などとい う「1文字」を入力可能にしてしまう
1文字をどう扱うか • このように多様なので、アプリケーションによって1文字の要件を決めるべき • 人の名前が重要な場合や絵文字を扱う場合には書記素クラスターが重要 – 戸籍には外字が含まれるので、Unicodeのコードポイントでも扱えない場合もある • 行政事務標準文字の概念が出てくるところ •
ここまで来ると詳しくないので詳しい人が出てきてほしいところ • パフォーマンスなどを考えたときにはコードポイントで数えるよう妥協する – 私の名前の「邉」は「邉󠄂」ですはできませんと妥協する • つまり、IVSの対応まではできませんということ – ただし「𠮷」を始めとした追加多言語面ができないのは流石に頑張ったほうがいい • サロゲートペアが必要だが、コードポイントでなんとかできる場面はなんとかする