言語と数理の交差点：テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

言語と数理の交差点テキストの埋め込みと構造のモデル化荒瀬由紀情報理工学院・教授 IBIS 2024 チュートリアル

自然言語処理と機械学習 • 自然言語処理になくてはならない技術 • 近年の自然言語処理を変えた３大発明 • word2vec (単語埋め込み)：(Mikolov et al.
ICLR Workshop 2013) • Attention機構：(Bahdanau et al. ICLR 2015), (Luong et al. EMNLP 2015) • Transformer：(Vaswani et al. NeurIPS 2017)

自然言語処理と機械学習 6 • とはいえ近くて遠い隣人 • NLP→ML • MLアルゴリズムや数理モデルの想定や定義を言語現象にグラウンディングするのがむずかしい •
ML→NLP • 言語処理が（時に暗黙的に）想定する構造や制約が見えづらい

本チュートリアルの目標とアジェンダ 7 言語処理（の|に）ML/数理（への|を）グラウンディングアジェンダ • 文・単語の埋め込み：ML based NLPの基盤 • 言語的構造・タスクに内在する構造のモデル化
• 単語系列としてのテキスト：最適輸送による意味類似度推定，マッピング • テキストに内在する構造：句構造木による文ベクトル合成 • 木構造としてのテキスト：木編集距離による句アラインメント

文・単語の埋め込み：ML based NLPの基盤 8 言語データを扱おうと思ったらこれがないとはじまらない

文・単語の埋め込み 9 • 記号である単語，単語の系列である句・文をベクトル空間に写像 • 分布仮説： You shall know a
word by the company it keeps. (Firth 1957) • 伝統的には単語の共起に基づく統計量（e.g., PMI）を用いて単語ベクトルを構成していた ※単語（埋め込み|分散表現|ベクトル）はおおよそ同じ意味 • Yellowtail with the flavor of grease is exceptional and can be enjoyed even with simple seasoning. • At its best in winter, young yellowtail appears as sashimi while mature yellowtail is or simmered. • If a restaurant is offering yellowtail, it’s either been shipped from Pacific sources, or it is another species. • The maximum observed size for yellowtail in the northeast Pacific Ocean is 92 pounds and estimated to be over 5 feet (155 centimeters).

文・単語の埋め込み 11 • 機械学習で分布仮説を自然にモデル化，学習 • word2vec • masked-language modeling (MLM)
• 単語・句・文をベクトルで表現できれば • 距離（類似度）を計算できる：内積，コサイン距離 • 機械学習モデルに入力できる “swing” 𝑓𝑓(𝑥𝑥)

静的埋め込み：word2vec (skip-gram) 12 • 𝑇𝑇単語からなる単語列を訓練データとして以下の目的関数を最大化 1 𝑇𝑇 �
𝑡𝑡=1 𝑇𝑇 � −𝑐𝑐<𝑗𝑗<𝑐𝑐 log 𝑝𝑝 𝑤𝑤𝑡𝑡+𝑗𝑗 𝑤𝑤𝑡𝑡 𝑝𝑝 𝑤𝑤𝑡𝑡+𝑗𝑗 𝑤𝑤𝑡𝑡 = exp(𝒗𝒗𝒗𝑡𝑡+𝑗𝑗 ⊤𝒗𝒗𝑡𝑡 ) ∑𝑖𝑖∈𝑉𝑉 exp(𝒗𝒗′𝑖𝑖 ⊤𝒗𝒗𝑡𝑡 ) T. Mikolov et al. Efficient estimation of word representations in vector space. ICLR Workshop 2013. T. Mikolov et al. Distributed representations of words and phrases and their compositionality. NeurIPS 2013. apricot caramel butter toast had 𝑤𝑤𝑡𝑡 𝑤𝑤𝑡𝑡−1 𝑤𝑤𝑡𝑡+1 𝒗𝒗𝑡𝑡 𝒗𝒗𝒗𝑡𝑡+1 単語ベクトルある単語から周辺単語を予測 →類似度（内積）が大きくなるよう訓練

静的埋め込み：word2vec (CBOW) 13 • Skip-gramとほぼ同じ • 周辺単語から目的単語を予測 apricot caramel butter
toast had 𝑤𝑤𝑡𝑡 𝑤𝑤𝑡𝑡−1 𝑤𝑤𝑡𝑡+1 𝒗𝒗𝑡𝑡−1 𝒗𝒗𝒗𝑡𝑡

静的埋め込み：“swing”の表現はひとつ 14 • 基本的に一単語一ベクトル • 様々な文脈の情報が唯一のベクトルに集約される Embedding Projector: https://projector.tensorflow.org/

文脈化埋め込み：MLM (BERT) 15 • 自己注意機構により文脈を参照しながらマスク単語を予測 • Transformer encoder によるCBOW/skip-gram apricot
[MASK] butter toast had Transformer 𝑤𝑤𝑡𝑡 𝑤𝑤𝑡𝑡−1 𝑤𝑤𝑡𝑡+1 Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019. Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer LM Head LM Head LM Head LM Head LM Head … … … … … caramel 𝑑𝑑 × |𝑉𝑉| softmax 𝒉𝒉𝑡𝑡 𝒉𝒉𝑡𝑡 ※どの層の出力を単語埋め込みとして使うのがよいかはタスク依存

BERT：“swing”の表現って200個あんねん 16 full swing swing (politics) swing (music) swing bridge
swing (揺らす)

NLP研究者は静的・文脈化埋め込みをどう見ているのか 17 • 静的埋め込み • 様々な文脈における単語出現分布を加味した「代表的な」意味の近似 • 当然多義性には弱い •
文脈化埋め込み • 所与の文脈中の単語の意味を表現でき様々なタスクで高い性能 • 句や文等，粒度の大きなテキストの表現生成に直結 • 文脈なしには使いづらい．また「文脈」の影響が大きすぎる場合も． • 文のトピック，周辺単語，構文，文長…

句・文ベクトルの合成 • 言語モデルによる合成 • BERT の [CLS] トークンの埋め込み • Fine-tuning
しない場合は性能が低い • GPT-2 の文末トークン（"<|endoftext|>"）の埋め込み • 単語埋め込みからの合成 • 単語ベクトルのmean-pooling (Reimers and Gurevych EMNLP 2019) • Fine-tuning しない（教師なし）の場合はこっち Reimers and Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. EMNLP 2019

句・文ベクトルの合成 19 • BERTは特殊トークン “[CLS]” を文頭に付加して訓練 • [CLS] トークンの埋め込みを文ベクトルとする apricot
caramel butter toast [CLS] Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer … … … … … 𝒉𝒉2 𝒉𝒉0 𝒉𝒉1 𝒉𝒉3 𝒉𝒉4

句・文ベクトルの合成 20 • 各単語の隠れベクトルをmean-pooling apricot caramel butter toast [CLS] Transformer
Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer … … … … … 𝒉𝒉2 𝒉𝒉0 𝒉𝒉1 𝒉𝒉3 𝒉𝒉4

多言語埋め込み 21 一つのモデルを言語ごとに独立な多言語コーパスでMLM訓練 e.g., Multilingual BERT, XLM-R MLM En De
Ja Zh

ナイーブな多言語MLMは対訳関係を表現しない 22 言語ごとに独立な多言語コーパスで訓練するため多言語間の対応を獲得できない

対訳データを活用した多言語モデル学習： LaBSE 23 • 対訳文同士の埋め込みが類似するよう BERTを継続訓練 (Feng et al. 2022)
• おおざっぱには対訳文対による skip-gram 1 𝑇𝑇 � 𝑡𝑡=1 𝑇𝑇 log exp(𝒔𝒔𝑖𝑖 ⊤𝒕𝒕𝑖𝑖 − 𝑚𝑚) exp(𝒔𝒔𝑖𝑖 ⊤𝒕𝒕𝑖𝑖 − 𝑚𝑚) + ∑𝑡𝑡=1 𝑇𝑇 exp(𝒔𝒔𝑖𝑖 ⊤𝒕𝒕𝑡𝑡 ) Feng et al. Language-agnostic BERT Sentence Embedding. ACL 2022.

多言語埋め込みから意味表現を分離 24 N. Tiyajamorn, T. Kajiwara, Y. Arase, and M.
Onizuka. Language-agnostic Representation from Multilingual Sentence Encoders for Cross- lingual Similarity Estimation. EMNLP2021. Sentence embedding Sentence embedding MLPL Language embedding Meaning embedding MLPM (b) 目的言語文 (d) ランダムな目的言語文 (a) 原言語文 (c) ランダムな原言語文対訳 Random sample • 同じ意味 • 異なる言語 • 違う意味 • 同じ言語 Random sample • 違う意味 • 同じ言語対訳文対を用いたマルチタスク学習で意味と言語ベクトルを分離 (Tiyajamorn+ 2021)

意味ベクトルの分離 Meaning embedding loss (近づく) Meaning embedding loss (離れる) Target
embedding (b) Target embedding MLPL Language embedding Meaning embedding MLPM (d) Random target embedding MLPL Language embedding Meaning embedding MLPM Source embedding (a) Source embedding MLPL Language embedding Meaning embedding MLPM (c) Random source embedding MLPL Language embedding Meaning embedding MLPM Meaning embedding loss (離れる)

言語ベクトルの分離 Language embedding loss Language identification MLPI Target embedding (b)
Target embedding MLPL Language embedding Meaning embedding MLPM (d) Random target embedding MLPL Language embedding Meaning embedding MLPM Language identification MLPI Source embedding (a) Source embedding MLPL Language embedding Meaning embedding MLPM (c) Random source embedding MLPL Language embedding Meaning embedding MLPM Language embedding loss

「意味」と「言語らしさ」成分の分離 27

文間類似度推定の性能 28 • 言語間だけでなく言語内でも文間類似度推定の性能が向上人手評価による類似度とのピアソン相関係数

言語的構造・タスクに内在する構造のモデル化 29

言語処理と構造 • 言語処理研究者の思考 1. データを観察し人間の処理と照らし合わせ，言語そのものやタスクに内在する構造を見出しモデルを設計する 2. 構造を考慮するのに適した（機械学習）モデルを検討 3. モデルのタスクへの適応，拡張
• 個々の事例の観察結果からそこで起こっている言語現象を抽象化 • 言語的直感と経験がものを言う • 構造が分かれば（解けるかは別として）仕事の半分は終わり

テキスト間の距離（類似度）推定 • 言語処理におけるもっとも重要な基礎技術のひとつ • 距離が測れると • テキスト分類，クラスタリング • QA：似た過去質問の発掘 •
情報検索，Retrieval-augmented generation: クエリと似た文書を探したい • 言語生成モデルの損失関数 • 言語生成モデルの評価：出力文と参照文の比較

テキスト間のマッピング • 距離だけでなくテキスト間の対応関係も知りたい • 二つのテキスト (句|文|段落|文書) 間で意味が類似したものを対応付け（アラインメント） • 距離推定の根拠
• 解釈可能性 • 言い換え（同一言語内），対訳（多言語間）知識の推定

距離推定，マッピングの方向 33 • 2つのテキスト対のうち一方をソース，他方をターゲットと呼ぶ • 距離推定・マッピングの方向を仮定する場合としない場合と両方ある（タスク依存）ソース：I had apricot
caramel butter toast with black tea this morning. ターゲット：I had sweet toast with tea.

二部グラフのマッピング 34

テキストを単語ベクトルの系列とみると 35 • テキストの意味が似ている~出現する単語の意味が似ている • 単語ベクトルで単語の意味の距離（類似度）を測れる • 単語にはテキスト内での重要度があるはず • e.g.,
冠詞よりも名詞の方が大事そう • 似た意味の単語を推定出来たら，すなわち二部グラフをつくれたら，うまくテキストの距離を測れそう The agency described in a statement that the information was a pack of lies It said in a bulletin that reports about the incident are cheap lies and news rumors

最適輸送（OT） 36 重さをもつ二つの点群間の最小輸送コストとマッピングを推定輸送にかかるコスト 1.0 0.0 重さ

最適輸送（OT） 37 重さをもつ二つの点群間の最小輸送コストとマッピングを推定輸送にかかるコスト 1.0 0.0 最適でない輸送コスト：100

最適輸送（OT） 38 重さをもつ二つの点群間の最小輸送コストとマッピングを推定輸送にかかるコスト 1.0 0.0 最適な輸送コスト：10

最適輸送（OT） 39 重さをもつ二つの点群間の最小輸送コストとマッピングを推定マッピング最適な輸送コスト：10

最適輸送（OT） 40 重さをもつ二つの点群間の最小輸送コストとマッピングを推定 𝐿𝐿𝐶𝐶 𝒂𝒂, 𝒃𝒃 = min 𝑃𝑃∈𝑈𝑈(𝒂𝒂,𝒃𝒃) �
𝑖𝑖,𝑗𝑗 𝐶𝐶𝑖𝑖,𝑗𝑗 𝑃𝑃𝑖𝑖,𝑗𝑗 𝑈𝑈 𝒂𝒂, 𝒃𝒃 = {𝑃𝑃 ∈ ℝ+ 𝑛𝑛×𝑚𝑚, 𝑃𝑃𝟏𝟏𝑚𝑚 = 𝒂𝒂, 𝑃𝑃⊤𝟏𝟏𝑛𝑛 = 𝒃𝒃} マッピング 𝑃𝑃 輸送にかかるコスト𝐶𝐶 1.0 0.0 𝒂𝒂 𝒃𝒃

最適輸送（OT） 41 詳しく知りたい方は佐藤竜馬さんチュートリアル＠IBIS2021 https://speakerdeck.com/joisino/zui-shi-shu-song-ru-men 横井祥さんチュートリアル＠NLP2022 https://speakerdeck.com/eumesy/optimal-transport-for-natural- language-processing

OTの輸送コストで類似度推定 42 • Word2vec の登場 • 低次元密ベクトルな単語埋め込みが利用可能に • さらに word2vec
の単語ベクトルで意味的類似度が測れることが経験的に示唆される • テキストの意味が似ている →出現する単語の意味が似ている →ソース・ターゲット間の単語埋め込みが似ている • 単語間の距離を積み上げることでテキスト間の距離を測れるのでは？

Word Mover’s Distance (Kusner et al. 2015) 43 • 単語ベクトルとOTによる最小輸送コスト＝テキスト間の類似度
• すべての単語は同じ重み • 輸送コストはユークリッド距離 Kusner et al. From word embeddings to document distances. ICML 2015. 𝒂𝒂 = 1 𝑛𝑛 , … , 1 𝑛𝑛 𝒃𝒃 = 1 𝑚𝑚 , … , 1 𝑚𝑚

Word Rotator’s Distance (Yokoi et al. 2020) 44 • 単語埋め込みの特性を考慮してWMDを改善
• ノルム：テキスト中の単語の重要度を表現することが経験的に知られている（e.g., (Khodak et al. 2018)） • 輸送コスト：コサイン距離 Yokoi et al. Word Rotator’s Distance. EMNLP 2020. Khodak et al. A La Carte Embedding: Cheap but Effective Induction of Semantic Feature Vectors. ACL 2018. 𝒂𝒂 ∝ 𝒔𝒔1 2 , … , 𝒔𝒔𝑛𝑛 2 𝒃𝒃 ∝ 𝒕𝒕1 2 , … , 𝒕𝒕𝑚𝑚 2

文間類似度推定の評価 45 Word Rotator’s Distance > Word Mover’s Distance >
Mean-pooling Yokoi et al. 2020 のTable 5より抜粋

文間類似度推定の評価 46 • 局所最適なアラインメントをする BERTScoreより高い性能 →OTによる全体最適化の効果 BERTScore：各ソース単語についてコサイン類似度最大のターゲット単語を対応付ける 1
𝑛𝑛 � 𝑖𝑖=1 𝑛𝑛 max 𝑗𝑗∈𝑚𝑚 cos(𝒔𝒔𝑖𝑖 , 𝒕𝒕𝑗𝑗 ) Yokoi et al. 2020 のTable 5より抜粋

OTのマッピングで単語アラインメント 47 • 二つの文の間の単語対応を推定したい • 言い換え・対訳知識抽出 • 文間類似度推定の根拠 • 最適輸送コストを与えるマッピングを単語アラインメントとする
(Arase et al. 2023) The agency described in a statement that the information was a pack of lies It said in a bulletin that reports about the incident are cheap lies and news rumors Arase et al. Unbalanced Optimal Transport for Unbalanced Word Alignment (ACL 2023)

OTのマッピングで単語アラインメント 48 • アラインメントの種類 • 一対一 • 多対多 (一対多・多対一) •
対応なし（Nullアラインメント）：「一致しない」という情報を与える重要な存在．Nullアラインメント割合は64%にのぼることも． The agency described in a statement that the information was a pack of lies It said in a bulletin that reports about the incident are cheap lies and news rumors

Balanced OT 49 • すべての単語間にアラインメントが存在することを仮定 𝐿𝐿𝐶𝐶 𝒂𝒂, 𝒃𝒃 = min
𝑃𝑃∈𝑈𝑈(𝒂𝒂,𝒃𝒃) � 𝑖𝑖,𝑗𝑗 𝐶𝐶𝑖𝑖,𝑗𝑗 𝑃𝑃𝑖𝑖,𝑗𝑗 𝑈𝑈 𝒂𝒂, 𝒃𝒃 = {𝑃𝑃 ∈ ℝ+ 𝑛𝑛×𝑚𝑚, 𝑃𝑃𝟏𝟏𝑚𝑚 = 𝒂𝒂, 𝑃𝑃⊤𝟏𝟏𝑛𝑛 = 𝒃𝒃} マッピング 𝑃𝑃 輸送にかかるコスト𝐶𝐶 1.0 0.0 𝒂𝒂 𝒃𝒃

Unbalanced/Partial OT 50 • (Balanced) OT は全ての単語が輸送されることが前提 • Unbalanced/Partial OT
は「輸送しない」ことを許容する Null アラインメント Unbalanced OT 𝐿𝐿𝐶𝐶 𝒂𝒂, 𝒃𝒃 = min 𝑃𝑃∈ℝ+ 𝑛𝑛×𝑚𝑚 � 𝑖𝑖,𝑗𝑗 𝐶𝐶𝑖𝑖,𝑗𝑗 𝑃𝑃𝑖𝑖,𝑗𝑗 +𝜏𝜏1 𝐷𝐷𝜑𝜑 𝑃𝑃𝟏𝟏𝑚𝑚 𝒂𝒂 + 𝜏𝜏2 𝐷𝐷𝜑𝜑 (𝑃𝑃⊤𝟏𝟏𝑛𝑛 |𝒃𝒃)

教師なし単語アラインメントの性能 51 • 単一言語内（英語）の単語アラインメントで実験 • 単語埋め込み：BERT • Unbalanced/Partial OT は（Nullアラインメント割合が異なる）デー
タセットに関わらず一貫して高い性能 Corpus (sparse ↔ dense) MSR-RTE Newsela EDB++ MTRef Arxiv Wiki Alignment links S S + P S S + P S S + P S S + P S S + P S Null rate (%) 63.8 59.0 33.3 23.5 27.4 19.0 18.7 11.2 12.8 12.2 8.3 fast-align 42.3 41.6 58.4 56.5 59.6 60.8 58.1 58.0 80.5 80.5 87.2 SimAlign 85.4 81.5 76.7 77.3 74.7 78.9 74.8 75.8 91.7 91.9 94.8 Type Reg. cost mass POT Sk cosine uniform 92.2 86.4 84.6 79.8 83.8 82.3 77.0 76.6 91.5 90.3 93.9 UOT Sk cosine uniform 90.2 84.5 83.1 79.1 84.7 82.5 77.2 77.1 90.0 89.6 93.8

教師なし単語アラインメントの性能 52 • Null アラインメント率が高い文間で高い性能 0% 20% 40% 60% 80%
100% 0 20 40 60 80 100 Alignment F1 (%) Null ratio (%) fast-align SimAlign Regularised POT: cos, uniform UOT: cos, uniform

教師あり学習も可能 54 • エントロピー正則化OT (Cuturi 2013) は微分可能→NNに組み込める • 単語アラインメントの損失関数として以下を設計 ℒ
𝑃𝑃𝑖𝑖,𝑗𝑗 , 𝑌𝑌𝑖𝑖,𝑗𝑗 = −𝑌𝑌𝑖𝑖,𝑗𝑗 log 𝑃𝑃𝑖𝑖,𝑗𝑗 − 1 − 𝑌𝑌𝑖𝑖,𝑗𝑗 log(1 − 𝑃𝑃𝑖𝑖,𝑗𝑗 ) Cuturi. Sinkhorn Distances: Lightspeed Computation of Optimal Transport. NeurIPS 2013. マッピング正解のアラインメント

教師あり単語アラインメントの性能 55 • 単一言語内（英語）の単語アラインメント • OT というシンプルな枠組みでより複雑な既存手法に匹敵する性能 Corpus (sparse ↔
dense) MSR-RTE Newsela EDB++ MTRef Arxiv Wiki Alignment links S S + P S S + P S S + P S S + P S S + P S Null rate (%) 63.8 59.0 33.3 23.5 27.4 19.0 18.7 11.2 12.8 12.2 8.3 (Lan et al. 2021) 95.1 89.2 86.7 85.3 88.3 87.8 83.4 86.1 95.2 95.0 96.6 (Nagata et al. 2020) 95.0 89.2 79.4 82.4 86.9 87.2 82.9 88.0 89.1 89.5 96.5 Type cost mass POT cosine norm 94.6 88.4 84.0 81.4 85.5 83.7 82.0 85.2 93.0 92.2 95.5 UOT cosine norm 94.8 89.0 86.8 84.7 86.7 86.6 82.9 87.4 92.5 92.8 96.7

対訳辞書抽出 56 • 二つの言語間の対訳辞書を自動構築したい • （機械）翻訳，評価，言語学習ネットワークコンピュータ情報苺
りんご杏子人参ジャガイモほうれん草 strawberry apple apricot carrot potato spinach network computer information

対訳辞書抽出 57 • 文脈依存ではなく単語単体の対応付け →静的な単語埋め込み間のアラインメント問題 • 多言語モデル＆OTで解けそう？ネットワークコンピュータ情報
苺りんご杏子人参ジャガイモほうれん草 strawberry apple apricot carrot potato spinach network computer information

[Recap] ナイーブな多言語MLMは対訳関係を表現しない 58 言語ごとに独立な多言語コーパスで訓練するため多言語間の対応を獲得できない

対訳辞書抽出 59 • 同一言語内の単語埋め込み間の関係に着目すると… • 対訳関係にある単語同士でクラスタを構成する傾向 • 単語ベクトル間の距離は言語間で（多くの場合）保存されるネットワークコンピュータ
情報苺りんご杏子人参ジャガイモほうれん草 strawberry apple apricot carrot potato spinach network computer information

Gromov-Wasserstein距離による対訳辞書抽出（Alvarez-Melis et al. 2018） 60 • ソース，ターゲットそれぞれの空間での「距離」の最適輸送 • 教師なしでの対訳辞書抽出が可能
Alvarez-Melis et al. Gromov-Wasserstein Alignment of Word Embedding Spaces. EMNLP 2018. 人参ジャガイモほうれん草 carrot potato spinach min 𝑃𝑃∈𝑈𝑈(𝒂𝒂,𝒃𝒃) � 𝑖𝑖,𝑗𝑗, ̂ 𝚤𝚤, ̂ 𝚥𝚥 |𝐶𝐶𝑖𝑖, ̂ 𝚤𝚤 − ̂ 𝐶𝐶𝑗𝑗, ̂ 𝚥𝚥 |𝑃𝑃𝑖𝑖,𝑗𝑗 𝑃𝑃 ̂ 𝚤𝚤, ̂ 𝚥𝚥 𝐶𝐶 ∈ ℝ+ 𝑛𝑛×𝑛𝑛, ̂ 𝐶𝐶 ∈ ℝ+ 𝑚𝑚×𝑚𝑚

対訳辞書抽出性能 61 • GWマッピングはより複雑な既存手法に匹敵する性能

言語における木構造 62

言語的構造 • ここまではテキストを単語の系列と見てきた • 単語埋め込みとOTで距離・マッピング（アラインメント）推定 • 言語には文法・意味による構造が存在する

言語的構造 • 構文的構造（文法的側面に主に注目） • 句構造 • 語が組み合わさって大きな単位（句，文）の意味を構成する構造を表現 • 依存構造 •
語と語の間の係り受け関係を表現 • 意味的な構造（語と語の関係に注目） • Abstract Meaning Representation (AMR)

句構造 65 • 句構造木：語が組み合わさって大きな単位（句，文）の意味を構成する構造を表現 sweet sweet chocolate have I
a tooth and love NP NP NP VP VP VP S 「甘いチョコレート」

句構造 66 • 句構造木：語が組み合わさって大きな単位（句，文）の意味を構成する構造を表現 sweet sweet chocolate have I
a tooth and love NP NP NP VP VP VP S 「甘いチョコレートが好き」

句・文ベクトルの合成 • 単語ベクトルのmean-pooling • 言語モデルによる合成 e.g., BERT の [CLS] トークンの埋め込み
• いずれの方法も句・文ベクトル合成に言語的構造は (陽に) 用いない apricot caramel butter toast [CLS] Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer … … … … … 𝒉𝒉2 𝒉𝒉0 𝒉𝒉1 𝒉𝒉3 𝒉𝒉4

句構造に基づく句・文ベクトル合成 68 • 句構造木：語が組み合わさって大きな単位（句，文）の意味を構成する構造を表現 • 仮説：「組み合わせの構造」を使えばよい句・文ベクトルを合成できるはず sweet sweet
chocolate have I a tooth and love NP NP NP VP VP VP S 「甘いチョコレートが好き」

Recursive Neural Network 69 • 木（句）構造に従って隠れベクトルを合成 (Socher et al. 2011)
𝒑𝒑1 = 𝑔𝑔 𝑊𝑊 𝒃𝒃 𝒄𝒄 , 𝒑𝒑2 = 𝑔𝑔 𝑊𝑊 𝒂𝒂 𝒑𝒑1 𝒂𝒂, 𝒃𝒃, 𝒄𝒄 ∈ ℝ𝑑𝑑, 𝑊𝑊 ∈ ℝ2𝑑𝑑 • 葉から根に向かって再帰的にエンコード • 各ノードでラベル予測の学習 � 𝒚𝒚𝑖𝑖 = softmax(𝒑𝒑𝑖𝑖 ) Socher et al. Parsing Natural Scenes and Natural Language with Recursive Neural Networks. ICML 2011.

Recursive Neural Tensor Network 70 仮説：NPとNP, ADPとNPのように言語的「組み合わせ」は様々．ぞれぞれに適した合成をしたい (Socher et
al. 2013)． 𝒑𝒑1 = 𝑔𝑔 𝒃𝒃 𝒄𝒄 ⊤ 𝑉𝑉[1:𝑑𝑑] 𝒃𝒃 𝒄𝒄 + 𝑊𝑊 𝒃𝒃 𝒄𝒄 𝒑𝒑2 = 𝑔𝑔 𝒂𝒂 𝒑𝒑1 ⊤ 𝑉𝑉[1:𝑑𝑑] 𝒂𝒂 𝒑𝒑1 + 𝑊𝑊 𝒂𝒂 𝒑𝒑1 𝑉𝑉 ∈ ℝ2𝑑𝑑×2𝑑𝑑×𝑑𝑑 Intuitively, we can interpret each slice of the tensor as capturing a specific type of composition. → Multi-head attention に通ずる思想 Socher et al. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. EMNLP2013.

ベースとなるNNと共に進化 71 • Tree-LSTM (Tai et al. 2015) • LSTMセルを採用
• Tree-Transformer (Wang et al. 2019) • (教師無し学習で推定される) 句構造に基づくself-attention Tai et al. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. ACL 2015. Wang et al. Tree Transformer: Integrating Tree Structures into Self-Attention. EMNLP 2019.

Stanford Sentiment Treebank での評価 72 • 句構造木の各ノードのpositive/negativeさを5段階でアノテーション • 各ノードのpositive/negative 度合が混じりながら葉から根へ伝搬

Stanford Sentiment Treebank での評価 73 • Recursive NNにより構造を考慮したエンコードを行うことで単語埋め込みのmean-poolingより高性能
• Tree-LSTM > RNTN > RNN と順調な性能向上 Table 2 from Tai et al. 2015

木構造間の距離・マッピング 74

言語処理における木構造の位置づけ 75 • 言語の木構造はテキストの意味に基づく理解を可能に • テキストの木構造同士を対応付けることで意味類似性判定が可能になるという期待 →出現単語の一致という表層的な類似性判定から脱却 A humming
bird got away when a dancing girl approached. A humming girl got away when a dancing bird approached. https://aaknaturewatch.com/blog/birdwaching/riflebird-display/

木編集距離・マッピング 76 • 編集操作を繰り返し適用して木𝑇𝑇1 を木𝑇𝑇2 に変換 • 木の編集操作：置換，削除，挿入 • 編集コスト：
� 𝑢𝑢,𝑣𝑣 ∈{𝑢𝑢→𝑣𝑣|𝑢𝑢∈𝑇𝑇1,𝑣𝑣∈𝑇𝑇2} 𝛾𝛾(𝑢𝑢 → 𝑣𝑣) + � 𝑢𝑢∈∅𝑇𝑇1 𝛾𝛾(𝑢𝑢 → ∅) + � 𝑣𝑣∈∅𝑇𝑇2 𝛾𝛾(∅ → 𝑣𝑣) 置換 ℓ1 ⟶ ℓ2 ℓ2 ⟶ ∅ 削除 ℓ1 ℓ2 ℓ2 ℓ1 ℓ1 挿入 ∅ ⟶ ℓ2

木編集距離・マッピング 77 • 木編集距離：木𝑇𝑇1 を木𝑇𝑇2 に最小コストで変換するときのコスト • 各編集操作のコストは任意の距離メトリック • マッピング：その際のノード間の対応関係
f d e a c b a c d a b d f d e a c b a c d a b d f d e a b … ソースターゲット

木編集距離のNLPでの利用 78 • 木編集距離はテキスト間距離を測るメトリックとして（ニューラル以前から）NLPで使われてきた • QAシステム (Kouylekov et al.
2004) • 質問と回答候補の距離を木編集距離で評価 • 含意関係認識（Punyakanok et al. 2005） • 含意関係認識：テキストTの内容が真のとき，仮説Hが成立するかを判定するタスク T: 551を食べた H: 中華まんを食べた • TとHの距離を木編集距離で評価 Punyakanok et al. Mapping Dependencies Trees: An Application to Question Answering. PASCAL Recognising Textual Entailment Challenge 2005. Kouylekov et al. Recognizing Textual Entailment with Tree Edit Distance Algorithms. AI&Math-2004.

似た意味を持つ句の推定 79 • 2つの句構造木においてノード間の対応（アラインメント）を推定 (Arase and Tsujii. 2020) • 文間類似度推定，パラフレーズ抽出に有益
Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork Arase and Tsujii. Compositional Phrase Alignment and Beyond. EMNLP2020.

似た意味を持つ句の推定 80 • 句構造木：語が組み合わさって大きな単位（句，文）の意味を構成する構造を表現 • 仮説：句の構造によってアラインメントが決まる Relying on team
spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork Arase and Tsujii. Compositional Phrase Alignment and Beyond. EMNLP2020.

句アライメントの性質 81 • 各ノードについてアラインメントは高々一つ Relying on team spirit , the
research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork

句アライメントの性質 82 • 同じ木構造内でアラインメントの先祖・子孫関係は維持される Relying on team spirit , the

句アライメントの性質 85 • 同じ木構造内でアラインメントの先祖・子孫関係は維持される • ただし左右の子（兄弟）の順序はひっくり返る場合がある Relying on team spirit
, the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork

句アライメントの性質 86 • 句アラインメントは部分木を構成する →子孫ノードのアラインメントが他の部分木に飛び出さない Relying on team spirit ,
the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork

句アライメントの性質 87 • Nullアラインメントも存在 Relying on team spirit , the

句アライメント＝無順序木のマッピング 88 • 木のマッピングの一種，制限マッピング (Zhang 1996) に一致 • 教師なし，多項式時間可解 •
編集操作とアラインメント • 置換：ノード間にアラインメントが存在 • 削除：ソース側のノードがNullアラインメント • 挿入：ターゲット側のノードがNullアラインメント Zhang. 1996. A constrained edit distance between unordered labeled trees. Algorithmica, 15(3):205–222

句アライメント＝無順序木のマッピング 89 • 句ベクトルのコサイン距離で編集コストを定義 • BERTによる単語埋め込みを用いることでテキストの強力な意味表現を制限マッピングで活用 • Nullアラインメントコストは定数 𝜆𝜆∅
� 𝑢𝑢,𝑣𝑣 ∈{𝑢𝑢→𝑣𝑣|𝑢𝑢∈𝑇𝑇1,𝑣𝑣∈𝑇𝑇2} cosine_dist(𝒖𝒖 , 𝒗𝒗) + � 𝑢𝑢∈∅𝑇𝑇1 𝜆𝜆∅ + � 𝑣𝑣∈∅𝑇𝑇2 𝜆𝜆∅

句アライメントでの評価実験 90 74 76 78 80 82 84 86 88
(Arase and Tsujii 2017) BERT + Thresholding BERT + CTED アラインメントのF1値構造制約なし，局所最適句構造木＋制限距離マッピングによる全体最適

まとめ 91 • ML based NLPの基盤：文・単語の埋め込み • 言語的構造・タスクに内在する構造のモデル化 • 単語系列としてのテキスト：最適輸送による意味類似度推定，マッピング
• テキストに内在する構造：句構造木による文ベクトル合成 • 木構造としてのテキスト：木編集距離による句アラインメント • 言語やタスクに内在する構造を数理的にモデル化することで一見複雑な言語現象を統一的に扱える

言語は多様 92 • 文の構成は自由度が非常に高く，多様性に満ちている • 人間の創造性 • 文法的に誤った文 • 大多数の事例が数理モデルの制約を満たしても，そこから逸脱する現
象もまま起こる • 例外的なケースをどう扱うかは設計思想において重要例：順序木マッピングの制約は言語に対し厳しすぎる • 順序木マッピングにおける編集操作を拡張 (Heilman and Smith 2010) • 制約の緩い無順序木マッピングを利用 (Arase and Tsujii 2020) Heilman and Smith. Tree Edit Models for Recognizing Textual Entailments, Paraphrases, and Answers to Questions. NAACL 2010.

言語は多様 93 • 句アライメントの性質は多くの場合成立するがたまに満たさないケースもある • この場合は後から空いている部分木を埋める後処理で対処 Relying on team
spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork 同じ部分木にいない ※後処理で追加

句構造に基づく句・文ベクトル合成 94 • 語の意味を組み合わせても句の意味にならない場合がある • こういった言語の多様かつ不思議な特性を考えるのが醍醐味 sweet sweet chocolate have
I a tooth and love NP NP NP VP VP VP S 「甘い歯」ではなく「甘党」「甘いチョコレート」

言語と数理の交差点：テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

言語と数理の交差点：テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

More Decks by Yuki Arase

Other Decks in Research

Featured

Transcript