Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

Yuki Arase
November 05, 2024

言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

深層学習の登場以降、機械学習と言語処理の距離はぐっと縮まった。機械学習が問題を抽象化して議論するのに対し、言語処理は言語また言語処理タスクに内在する構造や制約を前提としてモデル化を行う。例えば文の処理では文法的制約を与える木構造を前提とし、対訳辞書構築では単語をノード、対訳関係をエッジとする二部グラフを想定する。このような言語処理固有の背景は機械学習分野からは把握しづらい一方、興味深い問題を提起する。また機械学習による構造の数理的モデル化は言語処理に対し強力なツールを提供する。
本チュートリアルでは機械学習による言語処理を支える単語や文の埋め込み手法、内在する構造を木編集距離や最適輸送によりモデル化することで言語処理にアプローチする研究を紹介し、自然言語処理と機械学習分野の相互理解が深まることを目指す。

Yuki Arase

November 05, 2024
Tweet

More Decks by Yuki Arase

Other Decks in Research

Transcript

  1. 自然言語処理と機械学習 • 自然言語処理になくてはならない技術 • 近年の自然言語処理を変えた3大発明 • word2vec (単語埋め込み):(Mikolov et al.

    ICLR Workshop 2013) • Attention機構:(Bahdanau et al. ICLR 2015), (Luong et al. EMNLP 2015) • Transformer:(Vaswani et al. NeurIPS 2017)
  2. 本チュートリアルの目標とアジェンダ 7 言語処理(の|に)ML/数理(への|を)グラウンディング アジェンダ • 文・単語の埋め込み:ML based NLPの基盤 • 言語的構造・タスクに内在する構造のモデル化

    • 単語系列としてのテキスト:最適輸送による意味類似度推定,マッピング • テキストに内在する構造:句構造木による文ベクトル合成 • 木構造としてのテキスト:木編集距離による句アラインメント
  3. 文・単語の埋め込み 9 • 記号である単語,単語の系列である句・文をベクトル空間に写像 • 分布仮説: You shall know a

    word by the company it keeps. (Firth 1957) • 伝統的には単語の共起に基づく統計量(e.g., PMI)を用いて単語 ベクトルを構成していた ※単語(埋め込み|分散表現|ベクトル)はおおよそ同じ意味 • Yellowtail with the flavor of grease is exceptional and can be enjoyed even with simple seasoning. • At its best in winter, young yellowtail appears as sashimi while mature yellowtail is or simmered. • If a restaurant is offering yellowtail, it’s either been shipped from Pacific sources, or it is another species. • The maximum observed size for yellowtail in the northeast Pacific Ocean is 92 pounds and estimated to be over 5 feet (155 centimeters).
  4. 文・単語の埋め込み 11 • 機械学習で分布仮説を自然にモデル化,学習 • word2vec • masked-language modeling (MLM)

    • 単語・句・文をベクトルで表現できれば • 距離(類似度)を計算できる:内積,コサイン距離 • 機械学習モデルに入力できる “swing” 𝑓𝑓(𝑥𝑥)
  5. 静的埋め込み:word2vec (skip-gram) 12 • 𝑇𝑇単語からなる単語列を訓練 データとして以下の目的関数 を最大化 1 𝑇𝑇 �

    𝑡𝑡=1 𝑇𝑇 � −𝑐𝑐<𝑗𝑗<𝑐𝑐 log 𝑝𝑝 𝑤𝑤𝑡𝑡+𝑗𝑗 𝑤𝑤𝑡𝑡 𝑝𝑝 𝑤𝑤𝑡𝑡+𝑗𝑗 𝑤𝑤𝑡𝑡 = exp(𝒗𝒗𝒗𝑡𝑡+𝑗𝑗 ⊤𝒗𝒗𝑡𝑡 ) ∑𝑖𝑖∈𝑉𝑉 exp(𝒗𝒗′𝑖𝑖 ⊤𝒗𝒗𝑡𝑡 ) T. Mikolov et al. Efficient estimation of word representations in vector space. ICLR Workshop 2013. T. Mikolov et al. Distributed representations of words and phrases and their compositionality. NeurIPS 2013. apricot caramel butter toast had 𝑤𝑤𝑡𝑡 𝑤𝑤𝑡𝑡−1 𝑤𝑤𝑡𝑡+1 𝒗𝒗𝑡𝑡 𝒗𝒗𝒗𝑡𝑡+1 単語ベクトル ある単語から周辺単語を予測 →類似度(内積)が大きくなるよう 訓練
  6. 静的埋め込み:word2vec (CBOW) 13 • Skip-gramとほぼ同じ • 周辺単語から目的単語を予測 apricot caramel butter

    toast had 𝑤𝑤𝑡𝑡 𝑤𝑤𝑡𝑡−1 𝑤𝑤𝑡𝑡+1 𝒗𝒗𝑡𝑡−1 𝒗𝒗𝒗𝑡𝑡
  7. 文脈化埋め込み:MLM (BERT) 15 • 自己注意機構により文脈を参照しながらマスク単語を予測 • Transformer encoder によるCBOW/skip-gram apricot

    [MASK] butter toast had Transformer 𝑤𝑤𝑡𝑡 𝑤𝑤𝑡𝑡−1 𝑤𝑤𝑡𝑡+1 Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019. Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer LM Head LM Head LM Head LM Head LM Head … … … … … caramel 𝑑𝑑 × |𝑉𝑉| softmax 𝒉𝒉𝑡𝑡 𝒉𝒉𝑡𝑡 ※どの層の出力を単語埋め込み として使うのがよいかはタスク依存
  8. NLP研究者は静的・文脈化埋め込みをどう 見ているのか 17 • 静的埋め込み • 様々な文脈における単語出現分布を加味した「代表的な」意味の近似 • 当然多義性には弱い •

    文脈化埋め込み • 所与の文脈中の単語の意味を表現でき様々なタスクで高い性能 • 句や文等,粒度の大きなテキストの表現生成に直結 • 文脈なしには使いづらい.また「文脈」の影響が大きすぎる場合も. • 文のトピック,周辺単語,構文,文長…
  9. 句・文ベクトルの合成 • 言語モデルによる合成 • BERT の [CLS] トークンの埋め込み • Fine-tuning

    しない場合は性能が低い • GPT-2 の文末トークン("<|endoftext|>")の埋め込み • 単語埋め込みからの合成 • 単語ベクトルのmean-pooling (Reimers and Gurevych EMNLP 2019) • Fine-tuning しない(教師なし)の場合はこっち Reimers and Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. EMNLP 2019
  10. 句・文ベクトルの合成 19 • BERTは特殊トークン “[CLS]” を文頭に付加して訓練 • [CLS] トークンの埋め込みを文ベクトルとする apricot

    caramel butter toast [CLS] Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer … … … … … 𝒉𝒉2 𝒉𝒉0 𝒉𝒉1 𝒉𝒉3 𝒉𝒉4
  11. 句・文ベクトルの合成 20 • 各単語の隠れベクトルをmean-pooling apricot caramel butter toast [CLS] Transformer

    Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer … … … … … 𝒉𝒉2 𝒉𝒉0 𝒉𝒉1 𝒉𝒉3 𝒉𝒉4
  12. 対訳データを活用した多言語モデル学習: LaBSE 23 • 対訳文同士の埋め込みが類似するよう BERTを継続訓練 (Feng et al. 2022)

    • おおざっぱには対訳文対による skip-gram 1 𝑇𝑇 � 𝑡𝑡=1 𝑇𝑇 log exp(𝒔𝒔𝑖𝑖 ⊤𝒕𝒕𝑖𝑖 − 𝑚𝑚) exp(𝒔𝒔𝑖𝑖 ⊤𝒕𝒕𝑖𝑖 − 𝑚𝑚) + ∑𝑡𝑡=1 𝑇𝑇 exp(𝒔𝒔𝑖𝑖 ⊤𝒕𝒕𝑡𝑡 ) Feng et al. Language-agnostic BERT Sentence Embedding. ACL 2022.
  13. 多言語埋め込みから意味表現を分離 24 N. Tiyajamorn, T. Kajiwara, Y. Arase, and M.

    Onizuka. Language-agnostic Representation from Multilingual Sentence Encoders for Cross- lingual Similarity Estimation. EMNLP2021. Sentence embedding Sentence embedding MLPL Language embedding Meaning embedding MLPM (b) 目的言語文 (d) ランダムな 目的言語文 (a) 原言語文 (c) ランダムな 原言語文 対訳 Random sample • 同じ意味 • 異なる言語 • 違う意味 • 同じ言語 Random sample • 違う意味 • 同じ言語 対訳文対を用いたマルチタスク学習で意味と言語ベクトルを分離 (Tiyajamorn+ 2021)
  14. 意味ベクトルの分離 Meaning embedding loss (近づく) Meaning embedding loss (離れる) Target

    embedding (b) Target embedding MLPL Language embedding Meaning embedding MLPM (d) Random target embedding MLPL Language embedding Meaning embedding MLPM Source embedding (a) Source embedding MLPL Language embedding Meaning embedding MLPM (c) Random source embedding MLPL Language embedding Meaning embedding MLPM Meaning embedding loss (離れる)
  15. 言語ベクトルの分離 Language embedding loss Language identification MLPI Target embedding (b)

    Target embedding MLPL Language embedding Meaning embedding MLPM (d) Random target embedding MLPL Language embedding Meaning embedding MLPM Language identification MLPI Source embedding (a) Source embedding MLPL Language embedding Meaning embedding MLPM (c) Random source embedding MLPL Language embedding Meaning embedding MLPM Language embedding loss
  16. 言語処理と構造 • 言語処理研究者の思考 1. データを観察し人間の処理と照らし合わせ,言語そのものやタスクに内在す る構造を見出しモデルを設計する 2. 構造を考慮するのに適した(機械学習)モデルを検討 3. モデルのタスクへの適応,拡張

    • 個々の事例の観察結果からそこで起こっている言語現象を抽象化 • 言語的直感と経験がものを言う • 構造が分かれば(解けるかは別として)仕事の半分は終わり
  17. テキスト間の距離(類似度)推定 • 言語処理におけるもっとも重要な基礎技術のひとつ • 距離が測れると • テキスト分類,クラスタリング • QA:似た過去質問の発掘 •

    情報検索,Retrieval-augmented generation: クエリと似た文書を探したい • 言語生成モデルの損失関数 • 言語生成モデルの評価:出力文と参照文の比較
  18. テキストを単語ベクトルの系列とみると 35 • テキストの意味が似ている~出現する単語の意味が似ている • 単語ベクトルで単語の意味の距離(類似度)を測れる • 単語にはテキスト内での重要度があるはず • e.g.,

    冠詞よりも名詞の方が大事そう • 似た意味の単語を推定出来たら,すなわち二部グラフをつくれたら, うまくテキストの距離を測れそう The agency described in a statement that the information was a pack of lies It said in a bulletin that reports about the incident are cheap lies and news rumors
  19. 最適輸送(OT) 40 重さをもつ二つの点群間の最小輸送コストとマッピングを推定 𝐿𝐿𝐶𝐶 𝒂𝒂, 𝒃𝒃 = min 𝑃𝑃∈𝑈𝑈(𝒂𝒂,𝒃𝒃) �

    𝑖𝑖,𝑗𝑗 𝐶𝐶𝑖𝑖,𝑗𝑗 𝑃𝑃𝑖𝑖,𝑗𝑗 𝑈𝑈 𝒂𝒂, 𝒃𝒃 = {𝑃𝑃 ∈ ℝ+ 𝑛𝑛×𝑚𝑚, 𝑃𝑃𝟏𝟏𝑚𝑚 = 𝒂𝒂, 𝑃𝑃⊤𝟏𝟏𝑛𝑛 = 𝒃𝒃} マッピング 𝑃𝑃 輸送にかかるコスト𝐶𝐶 1.0 0.0 𝒂𝒂 𝒃𝒃
  20. OTの輸送コストで類似度推定 42 • Word2vec の登場 • 低次元密ベクトルな単語埋め込みが利用可能に • さらに word2vec

    の単語ベクトルで意味的類似度が測れることが経験的に示唆 される • テキストの意味が似ている →出現する単語の意味が似ている →ソース・ターゲット間の単語埋め込みが似ている • 単語間の距離を積み上げることでテキスト間の距離を測れるのでは?
  21. Word Mover’s Distance (Kusner et al. 2015) 43 • 単語ベクトルとOTによる最小輸送コスト=テキスト間の類似度

    • すべての単語は同じ重み • 輸送コストはユークリッド距離 Kusner et al. From word embeddings to document distances. ICML 2015. 𝒂𝒂 = 1 𝑛𝑛 , … , 1 𝑛𝑛 𝒃𝒃 = 1 𝑚𝑚 , … , 1 𝑚𝑚
  22. Word Rotator’s Distance (Yokoi et al. 2020) 44 • 単語埋め込みの特性を考慮してWMDを改善

    • ノルム:テキスト中の単語の重要度を表現することが経験的に知られている (e.g., (Khodak et al. 2018)) • 輸送コスト:コサイン距離 Yokoi et al. Word Rotator’s Distance. EMNLP 2020. Khodak et al. A La Carte Embedding: Cheap but Effective Induction of Semantic Feature Vectors. ACL 2018. 𝒂𝒂 ∝ 𝒔𝒔1 2 , … , 𝒔𝒔𝑛𝑛 2 𝒃𝒃 ∝ 𝒕𝒕1 2 , … , 𝒕𝒕𝑚𝑚 2
  23. OTのマッピングで単語アラインメント 47 • 二つの文の間の単語対応を推定したい • 言い換え・対訳知識抽出 • 文間類似度推定の根拠 • 最適輸送コストを与えるマッピングを単語アラインメントとする

    (Arase et al. 2023) The agency described in a statement that the information was a pack of lies It said in a bulletin that reports about the incident are cheap lies and news rumors Arase et al. Unbalanced Optimal Transport for Unbalanced Word Alignment (ACL 2023)
  24. OTのマッピングで単語アラインメント 48 • アラインメントの種類 • 一対一 • 多対多 (一対多・多対一) •

    対応なし(Nullアラインメント):「一致しない」という情報を与える重要な 存在.Nullアラインメント割合は64%にのぼることも. The agency described in a statement that the information was a pack of lies It said in a bulletin that reports about the incident are cheap lies and news rumors
  25. Balanced OT 49 • すべての単語間にアラインメントが存在することを仮定 𝐿𝐿𝐶𝐶 𝒂𝒂, 𝒃𝒃 = min

    𝑃𝑃∈𝑈𝑈(𝒂𝒂,𝒃𝒃) � 𝑖𝑖,𝑗𝑗 𝐶𝐶𝑖𝑖,𝑗𝑗 𝑃𝑃𝑖𝑖,𝑗𝑗 𝑈𝑈 𝒂𝒂, 𝒃𝒃 = {𝑃𝑃 ∈ ℝ+ 𝑛𝑛×𝑚𝑚, 𝑃𝑃𝟏𝟏𝑚𝑚 = 𝒂𝒂, 𝑃𝑃⊤𝟏𝟏𝑛𝑛 = 𝒃𝒃} マッピング 𝑃𝑃 輸送にかかるコスト𝐶𝐶 1.0 0.0 𝒂𝒂 𝒃𝒃
  26. Unbalanced/Partial OT 50 • (Balanced) OT は全ての単語が輸送されることが前提 • Unbalanced/Partial OT

    は「輸送しない」ことを許容する Null アラインメント Unbalanced OT 𝐿𝐿𝐶𝐶 𝒂𝒂, 𝒃𝒃 = min 𝑃𝑃∈ℝ+ 𝑛𝑛×𝑚𝑚 � 𝑖𝑖,𝑗𝑗 𝐶𝐶𝑖𝑖,𝑗𝑗 𝑃𝑃𝑖𝑖,𝑗𝑗 +𝜏𝜏1 𝐷𝐷𝜑𝜑 𝑃𝑃𝟏𝟏𝑚𝑚 𝒂𝒂 + 𝜏𝜏2 𝐷𝐷𝜑𝜑 (𝑃𝑃⊤𝟏𝟏𝑛𝑛 |𝒃𝒃)
  27. 教師なし単語アラインメントの性能 51 • 単一言語内(英語)の単語アラインメントで実験 • 単語埋め込み:BERT • Unbalanced/Partial OT は(Nullアラインメント割合が異なる)デー

    タセットに関わらず一貫して高い性能 Corpus (sparse ↔ dense) MSR-RTE Newsela EDB++ MTRef Arxiv Wiki Alignment links S S + P S S + P S S + P S S + P S S + P S Null rate (%) 63.8 59.0 33.3 23.5 27.4 19.0 18.7 11.2 12.8 12.2 8.3 fast-align 42.3 41.6 58.4 56.5 59.6 60.8 58.1 58.0 80.5 80.5 87.2 SimAlign 85.4 81.5 76.7 77.3 74.7 78.9 74.8 75.8 91.7 91.9 94.8 Type Reg. cost mass POT Sk cosine uniform 92.2 86.4 84.6 79.8 83.8 82.3 77.0 76.6 91.5 90.3 93.9 UOT Sk cosine uniform 90.2 84.5 83.1 79.1 84.7 82.5 77.2 77.1 90.0 89.6 93.8
  28. 教師なし単語アラインメントの性能 52 • Null アラインメント率が高い文間で高い性能 0% 20% 40% 60% 80%

    100% 0 20 40 60 80 100 Alignment F1 (%) Null ratio (%) fast-align SimAlign Regularised POT: cos, uniform UOT: cos, uniform
  29. 教師あり学習も可能 54 • エントロピー正則化OT (Cuturi 2013) は微分可能→NNに組み込める • 単語アラインメントの損失関数として以下を設計 ℒ

    𝑃𝑃𝑖𝑖,𝑗𝑗 , 𝑌𝑌𝑖𝑖,𝑗𝑗 = −𝑌𝑌𝑖𝑖,𝑗𝑗 log 𝑃𝑃𝑖𝑖,𝑗𝑗 − 1 − 𝑌𝑌𝑖𝑖,𝑗𝑗 log(1 − 𝑃𝑃𝑖𝑖,𝑗𝑗 ) Cuturi. Sinkhorn Distances: Lightspeed Computation of Optimal Transport. NeurIPS 2013. マッピング 正解のアラインメント
  30. 教師あり単語アラインメントの性能 55 • 単一言語内(英語)の単語アラインメント • OT というシンプルな枠組みでより複雑な既存手法に匹敵する性能 Corpus (sparse ↔

    dense) MSR-RTE Newsela EDB++ MTRef Arxiv Wiki Alignment links S S + P S S + P S S + P S S + P S S + P S Null rate (%) 63.8 59.0 33.3 23.5 27.4 19.0 18.7 11.2 12.8 12.2 8.3 (Lan et al. 2021) 95.1 89.2 86.7 85.3 88.3 87.8 83.4 86.1 95.2 95.0 96.6 (Nagata et al. 2020) 95.0 89.2 79.4 82.4 86.9 87.2 82.9 88.0 89.1 89.5 96.5 Type cost mass POT cosine norm 94.6 88.4 84.0 81.4 85.5 83.7 82.0 85.2 93.0 92.2 95.5 UOT cosine norm 94.8 89.0 86.8 84.7 86.7 86.6 82.9 87.4 92.5 92.8 96.7
  31. 対訳辞書抽出 56 • 二つの言語間の対訳辞書を自動構築したい • (機械)翻訳,評価,言語学習 ネットワーク コンピュータ 情報 苺

    りんご 杏子 人参 ジャガイモ ほうれん草 strawberry apple apricot carrot potato spinach network computer information
  32. Gromov-Wasserstein距離による対訳辞書 抽出(Alvarez-Melis et al. 2018) 60 • ソース,ターゲットそれぞれの空間での「距離」の最適輸送 • 教師なしでの対訳辞書抽出が可能

    Alvarez-Melis et al. Gromov-Wasserstein Alignment of Word Embedding Spaces. EMNLP 2018. 人参 ジャガイモ ほうれん草 carrot potato spinach min 𝑃𝑃∈𝑈𝑈(𝒂𝒂,𝒃𝒃) � 𝑖𝑖,𝑗𝑗, ̂ 𝚤𝚤, ̂ 𝚥𝚥 |𝐶𝐶𝑖𝑖, ̂ 𝚤𝚤 − ̂ 𝐶𝐶𝑗𝑗, ̂ 𝚥𝚥 |𝑃𝑃𝑖𝑖,𝑗𝑗 𝑃𝑃 ̂ 𝚤𝚤, ̂ 𝚥𝚥 𝐶𝐶 ∈ ℝ+ 𝑛𝑛×𝑛𝑛, ̂ 𝐶𝐶 ∈ ℝ+ 𝑚𝑚×𝑚𝑚
  33. 言語的構造 • 構文的構造(文法的側面に主に注目) • 句構造 • 語が組み合わさって大きな単位(句,文)の意味を構成する構造を表現 • 依存構造 •

    語と語の間の係り受け関係を表現 • 意味的な構造(語と語の関係に注目) • Abstract Meaning Representation (AMR)
  34. 句・文ベクトルの合成 • 単語ベクトルのmean-pooling • 言語モデルによる合成 e.g., BERT の [CLS] トークンの埋め込み

    • いずれの方法も句・文ベクトル合成に言語的構造は (陽に) 用いない apricot caramel butter toast [CLS] Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer … … … … … 𝒉𝒉2 𝒉𝒉0 𝒉𝒉1 𝒉𝒉3 𝒉𝒉4
  35. Recursive Neural Network 69 • 木(句)構造に従って隠れベクトルを合成 (Socher et al. 2011)

    𝒑𝒑1 = 𝑔𝑔 𝑊𝑊 𝒃𝒃 𝒄𝒄 , 𝒑𝒑2 = 𝑔𝑔 𝑊𝑊 𝒂𝒂 𝒑𝒑1 𝒂𝒂, 𝒃𝒃, 𝒄𝒄 ∈ ℝ𝑑𝑑, 𝑊𝑊 ∈ ℝ2𝑑𝑑 • 葉から根に向かって再帰的にエンコード • 各ノードでラベル予測の学習 � 𝒚𝒚𝑖𝑖 = softmax(𝒑𝒑𝑖𝑖 ) Socher et al. Parsing Natural Scenes and Natural Language with Recursive Neural Networks. ICML 2011.
  36. Recursive Neural Tensor Network 70 仮説:NPとNP, ADPとNPのように言語的「組み合わせ」は様々.ぞれ ぞれに適した合成をしたい (Socher et

    al. 2013). 𝒑𝒑1 = 𝑔𝑔 𝒃𝒃 𝒄𝒄 ⊤ 𝑉𝑉[1:𝑑𝑑] 𝒃𝒃 𝒄𝒄 + 𝑊𝑊 𝒃𝒃 𝒄𝒄 𝒑𝒑2 = 𝑔𝑔 𝒂𝒂 𝒑𝒑1 ⊤ 𝑉𝑉[1:𝑑𝑑] 𝒂𝒂 𝒑𝒑1 + 𝑊𝑊 𝒂𝒂 𝒑𝒑1 𝑉𝑉 ∈ ℝ2𝑑𝑑×2𝑑𝑑×𝑑𝑑 Intuitively, we can interpret each slice of the tensor as capturing a specific type of composition. → Multi-head attention に通ずる思想 Socher et al. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. EMNLP2013.
  37. ベースとなるNNと共に進化 71 • Tree-LSTM (Tai et al. 2015) • LSTMセルを採用

    • Tree-Transformer (Wang et al. 2019) • (教師無し学習で推定される) 句構造に基づくself-attention Tai et al. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. ACL 2015. Wang et al. Tree Transformer: Integrating Tree Structures into Self-Attention. EMNLP 2019.
  38. 木編集距離・マッピング 76 • 編集操作を繰り返し適用して木𝑇𝑇1 を木𝑇𝑇2 に変換 • 木の編集操作:置換,削除,挿入 • 編集コスト:

    � 𝑢𝑢,𝑣𝑣 ∈{𝑢𝑢→𝑣𝑣|𝑢𝑢∈𝑇𝑇1,𝑣𝑣∈𝑇𝑇2} 𝛾𝛾(𝑢𝑢 → 𝑣𝑣) + � 𝑢𝑢∈∅𝑇𝑇1 𝛾𝛾(𝑢𝑢 → ∅) + � 𝑣𝑣∈∅𝑇𝑇2 𝛾𝛾(∅ → 𝑣𝑣) 置換 ℓ1 ⟶ ℓ2 ℓ2 ⟶ ∅ 削除 ℓ1 ℓ2 ℓ2 ℓ1 ℓ1 挿入 ∅ ⟶ ℓ2
  39. 木編集距離のNLPでの利用 78 • 木編集距離はテキスト間距離を測るメトリックとして(ニューラル以 前から)NLPで使われてきた • QAシステム (Kouylekov et al.

    2004) • 質問と回答候補の距離を木編集距離で評価 • 含意関係認識(Punyakanok et al. 2005) • 含意関係認識:テキストTの内容が真のとき,仮説Hが成立するかを判定する タスク T: 551を食べた H: 中華まんを食べた • TとHの距離を木編集距離で評価 Punyakanok et al. Mapping Dependencies Trees: An Application to Question Answering. PASCAL Recognising Textual Entailment Challenge 2005. Kouylekov et al. Recognizing Textual Entailment with Tree Edit Distance Algorithms. AI&Math-2004.
  40. 似た意味を持つ句の推定 79 • 2つの句構造木においてノード間の対応(アラインメント)を推定 (Arase and Tsujii. 2020) • 文間類似度推定,パラフレーズ抽出に有益

    Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork Arase and Tsujii. Compositional Phrase Alignment and Beyond. EMNLP2020.
  41. 似た意味を持つ句の推定 80 • 句構造木:語が組み合わさって大きな単位(句,文)の意味を構成す る構造を表現 • 仮説:句の構造によってアラインメントが決まる Relying on team

    spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork Arase and Tsujii. Compositional Phrase Alignment and Beyond. EMNLP2020.
  42. 句アライメントの性質 81 • 各ノードについてアラインメントは高々一つ Relying on team spirit , the

    research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork
  43. 句アライメントの性質 82 • 同じ木構造内でアラインメントの先祖・子孫関係は維持される Relying on team spirit , the

    research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork
  44. 句アライメントの性質 83 • 同じ木構造内でアラインメントの先祖・子孫関係は維持される Relying on team spirit , the

    research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork
  45. 句アライメントの性質 84 • 同じ木構造内でアラインメントの先祖・子孫関係は維持される Relying on team spirit , the

    research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork
  46. 句アライメントの性質 87 • Nullアラインメントも存在 Relying on team spirit , the

    research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork
  47. 句アライメント=無順序木のマッピング 88 • 木のマッピングの一種,制限マッピング (Zhang 1996) に一致 • 教師なし,多項式時間可解 •

    編集操作とアラインメント • 置換:ノード間にアラインメントが存在 • 削除:ソース側のノードがNullアラインメント • 挿入:ターゲット側のノードがNullアラインメント Zhang. 1996. A constrained edit distance between unordered labeled trees. Algorithmica, 15(3):205–222
  48. 句アライメント=無順序木のマッピング 89 • 句ベクトルのコサイン距離で編集コストを定義 • BERTによる単語埋め込みを用いることでテキストの強力な意味表現を制限 マッピングで活用 • Nullアラインメントコストは定数 𝜆𝜆∅

    � 𝑢𝑢,𝑣𝑣 ∈{𝑢𝑢→𝑣𝑣|𝑢𝑢∈𝑇𝑇1,𝑣𝑣∈𝑇𝑇2} cosine_dist(𝒖𝒖 , 𝒗𝒗) + � 𝑢𝑢∈∅𝑇𝑇1 𝜆𝜆∅ + � 𝑣𝑣∈∅𝑇𝑇2 𝜆𝜆∅
  49. 句アライメントでの評価実験 90 74 76 78 80 82 84 86 88

    (Arase and Tsujii 2017) BERT + Thresholding BERT + CTED アラインメントのF1値 構造制約なし, 局所最適 句構造木+制限 距離マッピング による全体最適
  50. まとめ 91 • ML based NLPの基盤:文・単語の埋め込み • 言語的構造・タスクに内在する構造のモデル化 • 単語系列としてのテキスト:最適輸送による意味類似度推定,マッピング

    • テキストに内在する構造:句構造木による文ベクトル合成 • 木構造としてのテキスト:木編集距離による句アラインメント • 言語やタスクに内在する構造を数理的にモデル化することで一見複雑 な言語現象を統一的に扱える
  51. 言語は多様 92 • 文の構成は自由度が非常に高く,多様性に満ちている • 人間の創造性 • 文法的に誤った文 • 大多数の事例が数理モデルの制約を満たしても,そこから逸脱する現

    象もまま起こる • 例外的なケースをどう扱うかは設計思想において重要 例:順序木マッピングの制約は言語に対し厳しすぎる • 順序木マッピングにおける編集操作を拡張 (Heilman and Smith 2010) • 制約の緩い無順序木マッピングを利用 (Arase and Tsujii 2020) Heilman and Smith. Tree Edit Models for Recognizing Textual Entailments, Paraphrases, and Answers to Questions. NAACL 2010.
  52. 言語は多様 93 • 句アライメントの性質は多くの場合成立するがたまに満たさないケー スもある • この場合は後から空いている部分木を埋める後処理で対処 Relying on team

    spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork 同じ部分木にいない ※後処理で追加