Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Sho Yokoi
PRO
March 17, 2023
Education
19k
24
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
「
Workshop OT 2023
最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです
Sho Yokoi
PRO
March 17, 2023
More Decks by Sho Yokoi
See All by Sho Yokoi
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
2.3k
Language Models Are Implicitly Continuous
eumesy
PRO
0
490
言語モデルの内部機序:解析と解釈
eumesy
PRO
87
30k
コーパスを丸呑みしたモデルから言語の何がわかるか
eumesy
PRO
12
4.9k
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
10
2.6k
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
7
2k
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
8
4.6k
A Theory of Emergent In-Context Learning as Implicit Structure Induction
eumesy
PRO
5
1.8k
Revisiting Over-smoothing in BERT from the Perspective of Graph
eumesy
PRO
0
2k
Other Decks in Education
See All in Education
良い塩梅を実現する、AWSネットワーク3分クッキング
masakiokuda
1
260
Catecismo 26 #2 - Do Credo; Introdução ao 1º artigo
cm_manaus
0
120
勾配ブースティングと決定木の話 / gradient boosting and decision trees
kaityo256
PRO
6
1.3k
The Art & Science of Elearning
tmiket
1
220
2026年度春学期 統計学 第6回 データの関係を知る(1)ー 相関関係 (2026. 5. 14)
akiraasano
PRO
0
120
JAWS-UG初心者支部#81 GWにEduJAWSと何か作ろうもくもく会!
otsuki
0
130
SARA Annual Report 2025-26
sara2023
1
360
0526
cbtlibrary
0
160
偶然のチャンスを掴みに行けるのは君だ!
kotomin_m
2
130
プロポーザルを書く技術とアンチパターン/proposal-writing-and-antipatterns
moriyuya
13
3.4k
Visionary Initiative: Materials-Positive Society 「モノの進化をポジティブな社会の原動力に」|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
400
Human-AI Interaction - Lecture 11 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.1k
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
304
22k
Color Theory Basics | Prateek | Gurzu
gurzu
0
360
Darren the Foodie - Storyboard
khoart
PRO
3
3.4k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
430
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
270
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
150
Chasing Engaging Ingredients in Design
codingconduct
0
220
Git: the NoSQL Database
bkeepers
PRO
432
67k
WENDY [Excerpt]
tessaabrams
11
38k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Balancing Empowerment & Direction
lara
6
1.2k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
970
Transcript
ChatGPTと⾃然⾔語処理 + ⾔語の意味の計算と最適輸送 横井 祥(東北⼤学) 2023-03-17, Workshop OT 2023 ChatGPT
を題材に ⾃然⾔語処理の気持ちを共有
⾃⼰紹介 • 横井 祥 − ⾃然⾔語処理(NLP)という分野にいます − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ 🕒 経歴
− B︓京都⼤学 ⼯学部 情報学科(⿅島 久嗣 先⽣) 機械学習 − M, D, 現︓東北⼤学 情報科学研究科(乾 健太郎 先⽣) ⾃然⾔語処理 − 現︓理化学研究所 AIPセンター(下平 英寿 先⽣) 埋込表現 📝 研究の興味 − ⾔語の “意味” が 埋込空間の “形状” にどのように反映されるのか – ⻑さ [EMNLPʼ20, ICLRʼ21, arXivʼ22], – 混ざり具合 [EMNLPʼ20, EMNLPʼ21, arXivʼ22], – 輸送 [EMNLPʼ20, arXivʼ22],... 2
今⽇の話題 3 ⾃然⾔語処理 • NLP って何をする分野︖ 最適輸送 × ⾃然⾔語処理 •
NLP 視点での OT の魅⼒ • 最適値に興味があるケース • 📄 NLP の場合の重み︖距離︖ [Y., Takahashi, Akama, Suzuki, Inui; EMNLPʼ20] • 📄 ノルムの意味 [Oyama, Y., Shimodaira; arxivʼ22] • 最適解に興味があるケース • 📄 アラインメントが不要なケースと不均衡 OT [Arase, Bao, Y.; ACLʼ23] • 📄 GW 距離に基づく複数⾔語の対応付け [Alvarez-Melis&Jaakkola EMNLPʼ18] • オープンクエスチョン
今⽇の話題 4 ⾃然⾔語処理 • NLP って何をする分野︖ • ChatGPT で NLP
は終わるの︖ 最適輸送 × ⾃然⾔語処理 • NLP 視点での OT の魅⼒ • 最適値に興味があるケース • 📄 NLP の場合の重み︖距離︖ [Y., Takahashi, Akama, Suzuki, Inui; EMNLPʼ20] • 📄 ノルムの意味 [Oyama, Y., Shimodaira; arxivʼ22] • 最適解に興味があるケース • 📄 アラインメントが不要なケースと不均衡 OT [Arase, Bao, Y.; ACLʼ23] • 📄 GW 距離に基づく複数⾔語の対応付け [Alvarez-Melis&Jaakkola EMNLPʼ18] • オープンクエスチョン いま皆さんが気になるのはこれですよね. 「結局 ChatGPT って何︖」 「NLP 終わった…︖」 「今⽇のトーク(NLP 研究)はもう不要︖」 等の疑問に NLPer ⽬線で答えつつ,NLP の導⼊とします.
⾃然⾔語処理の気持ち 5 ※突貫資料で引⽤が⽢いです,ご容赦…. ChatGPT を題材に
分野の⽬標︓⾔葉の意味の計算とその活⽤ • ⾃然⾔語処理・計算⾔語学 − ⾃然⾔語⽂を計算機を⽤いて処理したい – 機械翻訳 (e.g. DeepL),⼊⼒補完 (e.g.
GitHub copilot), チャットボット (e.g. ChatGPT),... − 計算モデルを介して⾃然⾔語を理解したい – ⾔語を越えた共通点は︖,⾔語による “複雑さ” の違い︖, ヒトの⾔語獲得の機序︖,... 6
分野の⽬標︓⾔葉の意味の計算を通した⾊々 • ⾃然⾔語処理・計算⾔語学 − ⾃然⾔語⽂を計算機を⽤いて処理したい – 機械翻訳 (e.g. DeepL),⼊⼒補完 (e.g.
GitHub copilot), チャットボット (e.g. ChatGPT),... − 計算モデルを介して⾃然⾔語を理解したい – ⾔語を越えた共通点は︖,⾔語による “複雑さ” の違い︖, ヒトの⾔語獲得の機序︖,... 7
ChatGPT︓すごいチャットボット 8 https://openai.com/blog/chatgpt 共起に基づくであろう適切な補完 指⽰(推理⼩説)に合った素材を 流暢に導⼊
ChatGPT︓すごいチャットボット 9 このスライド内のすべてのスクショの設定︓ ・チェリーピックではなく1つめに試したプロンプト ・エンジンのバージョンは GPT-4
ChatGPT︓すごいチャットボット 10 「無茶苦茶じゃん」とは全くならない. ラボに⼊って2ヶ⽉の学部4年⽣のスラ イド内にあったら激褒めするレベル
ChatGPT の作り⽅(超簡略版) 11 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中まで読ませてその次の単語を当てさせる − (causal,
left-to-right) language models; next word prediction
ChatGPT の作り⽅(超簡略版) 12 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中 [まで] 読ませてその次の単語を当てさせる
− (causal, left-to-right) language models; next word prediction ⼊⼒ 出⼒
ChatGPT の作り⽅(超簡略版) 13 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中まで読ませて [その] 次の単語を当てさせる
− (causal, left-to-right) language models; next word prediction ⼊⼒ 出⼒
ChatGPT の作り⽅(超簡略版) 14 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中まで読ませてその次の単語を当てさせる − (causal,
left-to-right) language models; next word prediction • 2. 対話形式で各種質問に回答できるよう追加訓練 − 質問⽂ ← ⼈間のアノテータに作らせまくる 💰 − 適切な回答 ← ⼈間のアノテータに作らせまくる 💰 − モデルの回答の良さ ← ⼈間のアノテータにランキングさせまくる 💰 − InstructGPT; Reinforcement Learning from Human Feedback (RLHF)
NLP の中の⼈にとっての ChatGPT 15 • みな衝撃を受けている − 技術的には︓こういうアプリは作れるでしょとは思っていた – 修論ネタとして出てきたら「アイデアが凡庸すぎるかも…︖」「泥臭すぎ
る」とコメントするレベル − でも,実際作られたものを使ったときの衝撃は無茶苦茶⼤きかった • この組み合わせが(たぶん)すごかった − 対話形式 − gentle なキャラクター設定 + 流暢性 • 今後は︖︓NLP の⼿を勝⼿に離れていく − 応⽤︓多様なアプリ,ビジネス,が確実に出てくる. – 研究者層とは参加者数のオーダーが違う,市場に任せるフェーズ − 個々のドメイン × NLP の研究 がずっとやりやすくなる 私⾒(強調)
NLP 終わった…︖ 16 • @⾔語処理学会 年次⼤会, 2023-03 (今週⽉〜⾦) − https://www.anlp.jp/nlp2023/
− NLP 分野の国内最⼤の会議
NLP 終わった…︖ → やりたいことが⼤量に増えた 17 • 😩 もう研究開発しなくて良いことはたぶん⾊々ある − 「頑張ってモデルを組むよりも
ChatGPT にやらせる⽅が10ポイント ⾼いパフォーマンスが出る 」…なんて事例は今後いくらでも増えて いきそう – ※ 2023年3⽉現在はタスク特化モデルの⽅が良いパフォーマンスを出すこ とも多々 − NLP のそこそこの数のサブドメインが戦略変更を余儀なくされそう • 😄 ChatGPT という超⾯⽩いおもちゃが登場したことで, やりたいことも⼤量に増えた 私⾒
NLP 終わった…︖ → やりたいことが⼤量に増えた 18 ⾔語⾯・機械学習⾯でのさまざまな興味 • なぜ訓練はほぼ英語なのに他の⾔語でもすいすい動くのか − 異なる⾔語同⼠が共有する共通点は何︖いかなる情報がいかなる形
で⾔語モデル内で転移されている︖ − ※ たとえば,各⾔語でそれぞれ独⽴にある種の埋め込み表現を学習 したあと,埋め込み同⼠を直交変換でだいたい重ね合わることがで きる(e.g. 猫 ↔ cat,科学 ↔ science) .点群の重なりの良さを 確かめる道具として OT もしばしば⽤いられる.⾔語が違えば語彙 が異なるし,また訳語を与えられる場合にも指⽰先(ある種の意 味)が異なり得るのに(e.g. ⽣活 ↔ life),それでも語彙全体の共 起のグラフの形は “似て” いるらしい.すなわち,⾔語にはこの意味 である種の普遍性が存在する模様.重ね合わせられるという経験的 知⾒に関してはずいぶん前から知られているが,それがなぜなのか はまだわかっていない. 私⾒
NLP 終わった…︖ → やりたいことが⼤量に増えた 19 • 固有物の表現とそうでない語はモデル内でうまく区別され ているのか︔またそれは⾃然⾔語(訓練データ)のどのよ うな特徴に基づいて実現しているのか •
固有物の表現 • 「Biden」と「Trump」を⾔い間違えたら主張の正誤が簡単に反転 • そうでない語 • 「とても」と「ものすごく」を⾔い間違えてもほぼ問題なし • 単語の中には “離散” 度の⾼いものと “連続” 度の⾼いものが混在し ている 私⾒
NLP 終わった…︖ → やりたいことが⼤量に増えた 20 • どのような条件でモデルやエージェントは⾔語を獲得・運 ⽤できるようになるのか − ⾝体性抜きで(センサー・アクチュエーター抜きで)どこまで「意
味」の理解が可能か − ヒトと ChatGPT は全く違う⽅法で第⼀⾔語を獲得している,…… のに,ChatGPT は超流暢に⾔語を運⽤しているように⾒える – 刺激の貧困 ↔ ⼤量の教師データ – ⾮⾔語情報の活⽤ ↔ ⾔語情報のみ(いまのところは) – etc. 私⾒
NLP 終わった…︖ → やりたいことが⼤量に増えた 21 • 訓練データの丸暗記 (memorization) と汎化 (generalization)
が両⽴しているように⾒えるのはなぜか − 丸暗記︓固有物に対する知識を “ある程度” 正確に問い合わせられる – language models as knowledge base? − 汎化︓⾒たこともないはずの質問にスムーズに回答できる 私⾒
NLP 終わった…︖ → やりたいことが⼤量に増えた 22 • すごいマルコフモデル(© kashi_pong 先⽣)(=簡単な確 率モデル)が,なぜこれほど上⼿に⾃然⾔語(=いくらでも
新しい概念・主張を書ける筈の超複雑な装置)を扱えるのか − 我々は有限な語彙を組み合わせることによってこれまで誰も表現して こなかった考えを表現できる [Frege, 19c] − ヒトが議論・思考に⽤いるテキスト全体は実際どの程度複雑なのか 私⾒ https://twitter.com/kashi_pong/status/1636225639182405633
NLP 終わった…︖ → やりたいことが⼤量に増えた 23 正確性・解釈性 • Hallucination − 嘘︔原義︓幻覚
• → 正確性特化のツール(e.g. 法律⽂書や医療⽂書の機械翻訳)と ⼤規模⾔語モデルの分業化︖ − 決まった出⼒を返すべきツール での損失(のちほど) • → 正確性に興味がある少数 のユーザ向けに,出⼒の根拠 をどう⽰すか − 単語アラインメント(のちほ ど) 私⾒
NLP 終わった…︖ → やりたいことが⼤量に増えた 24 • 現況 − ⾔語を使ってものすごく流暢にコミュニケーションをとることができ る(ように⾒える)何かがどうやら爆誕した
− NLP 界隈の⼿を良い意味で離れていく部分 – 個々のアプリケーション,ビジネス • とくに創造的な出⼒が求められるもの,正確性が要求されないもの – 各ドメイン × NLP な協働が無茶苦茶やりやすくなる • NLP の⼈(のひとり)⽬線では,やりたいことが増えた感 − コーパスから学習したいこと ↔ できていることのギャップは︖ – e.g. 固有表現とそうでない語の峻別 – e.g. 低頻度事象の学習 − ⾃然⾔語の複雑さ︖ ヒトの⾔語獲得への⽰唆︖ ⾔語間の共通項︖ − 正確な⽣成︖ 解釈性︖ − etc. 私⾒
ChatGPT おすすめ⽇本語資料 25 • 導⼊ − ことラボ, “AI としゃべろう,” YouTube.
(2023-02-27 公開) − https://www.youtube.com/watch?v=44Bl1ZwShxI • ニューラル⾔語モデルから ChatGPT までの⼀連の経緯 − ⻄⽥(京), ⻄⽥(光), ⽥中, ⻫藤 (NTT ⼈間情報研究所), “NLPと Vision-and-Languageの基礎・最新動向 (1): NLP,” DEIM 2023. (2023-03-08) − https://speakerdeck.com/kyoun/deim-tutorial-part-1-nlp • ChatGPT 周辺のファクト(⽤語・技術・課題) − 鈴⽊ (東北⼤学), “ChatGPTに関する調査結果,” NLP 2023. − coming soon 類似資料に20本ほど⽬を通した上で,いち NLPer ⽬線で
最適輸送 × ⾃然⾔語処理 26 まずは 解くべき(=ChatGPT で解決していない)問題を
最適輸送 × ⾃然⾔語処理 その1 最適値が気になるシリーズ 27
テキストの類似度測定 28 • ふたつのテキストの類似度の測定 − NLP で極めて頻繁に必要とされるサブルーチン − テキスト⽣成︓⽣成⽂ ↔
リファレンス⽂ – 損失関数,⾃動評価尺度 − 関連テキスト検索︓⽂ ↔ ⽂,⽂書 ↔ ⽂書,クエリ ↔ ⽂書 – 検索機能で拡張した(retrieval-augmented)⾔語モデル,類似性に基づ く説明,etc. • 基本指針のひとつ︓要素単語の重なりの度合いを測る 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Seman=c Vector Composi=on (SemEval 2015) ChatGPT の訓練でも 教師ありテキスト⽣成が⼊る
Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 29 • 単語ベクトル空間上で点群間の最適輸送コストを考える
− ⽂1︓単語埋込空間で重みが乗っている位置 (before) − ⽂2︓単語埋込空間の重みが乗っている位置 (after) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)
Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 30 • 単語ベクトル空間上で点群間の最適輸送コストを考える
− ⽂1︓単語埋込空間で重みが乗っている位置 (before) − ⽂2︓単語埋込空間の重みが乗っている位置 (after) • 意味の近さ (単語単位のアラインメントしやすさ) ↔ 輸送コスト − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)
Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 31 • 単語ベクトル空間上で点群間の最適輸送コストを考える
− ⽂1︓単語埋込空間で重みが乗っている位置 (before) − ⽂2︓単語埋込空間の重みが乗っている位置 (after) • 意味の近さ (単語単位のアラインメントしやすさ) ↔ 輸送コスト − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − ⽂1, ⽂3: テキストの意味が似ていない ↔ ⾼い輸送コストがかかる 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) Natural language processing is awesome document 3 ‘natural’ ‘processing’ ‘awesome’ ‘language’
重みと輸送コストをどう与えると “⾃然” か 32 • Word Moverʼs Distance [Kusner+ʼ15] −
確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ,確率分布︓𝒃 = 1/𝑚, … , 1/𝑚 − 輸送コスト︓𝑪!" = 𝒘! − 𝒘" # $ − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪) • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20] − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $ ,𝒃 ∝ 𝒘′% $, … , 𝒘′' $ − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘" # − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) hVps://arxiv.org/abs/2004.15003 📄 Schakel&Wilson, Measuring Word Significance using Distributed Representa=ons of Words (arXiv 2015) 📄 Oyama+, Norm of word embedding encodes informa=on gain (arXiv 2022) おそらく数理科学の⼈が 「点群の違いを最適輸送の気持ち で測りましょう」となったときの もっとも⾃然な初⼿
重みと輸送コストをどう与えると “⾃然” か 33 • Word Moverʼs Distance [Kusner+ʼ15] −
確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ,確率分布︓𝒃 = 1/𝑚, … , 1/𝑚 − 輸送コスト︓𝑪!" = 𝒘! − 𝒘" # $ − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪) • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20] − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $ ,𝒃 ∝ 𝒘′% $, … , 𝒘′' $ − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘" # − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) https://arxiv.org/abs/2004.15003 📄 Schakel&Wilson, Measuring Word Significance using Distributed Representations of Words (arXiv 2015) 📄 Oyama+, Norm of word embedding encodes information gain (arXiv 2022) 単語ベクトルの⻑さには 単語の重要度が近似的に埋め込まれている [Schakel&Wilsonʼ15], [Oyama+ʼ22] なす⾓ (※) が単語の⾮類似度として有⽤ ※ 単語ベクトルの⻑さを無視した距離 NLP マンから⾒るとこちらの⽅が⾃然
⽂のトピックを決める度合い↔⻑さ [Oyama+ʼ22] 34 トピック 決める度 ベクトルの⻑さ gdi 国内総所得 10.13 78.2
phosphide リン化物 10.10 82.2 tachycardia 頻脈 10.00 82.1 … of 0.09 1.2 and 0.08 0.9 the 0.08 1.0 KL(p ⋅ ||p ⋅ 𝑤 ) ⽩⾊化後の2-ノルム 📄 Oyama+, Norm of word embedding encodes informa=on gain (arXiv 2022) hVps://arxiv.org/abs/2212.09663
重みと輸送コストをどう与えると “⾃然” か 35 • Word Moverʼs Distance [Kusner+ʼ15] −
確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ,確率分布︓𝒃 = 1/𝑚, … , 1/𝑚 − 輸送コスト︓𝑪!" = 𝒘! − 𝒘" # $ − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪) • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20] − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $ ,𝒃 ∝ 𝒘′% $, … , 𝒘′' $ − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘" # − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) hVps://arxiv.org/abs/2004.15003 📄 Schakel&Wilson, Measuring Word Significance using Distributed Representa=ons of Words (arXiv 2015) 📄 Oyama+, Norm of word embedding encodes informa=on gain (arXiv 2022) ⽂類似度タスクで10ポイント程度性能が改善 [Yokoi+’20] k-NN⽂書分類でも安定した性能改善 [Smirnov&Yamshchikov’22] ⾔語処理の問題を解いた際の 経験的性能が⼤きく伸びる
最適輸送と⾃然⾔語処理の 相性の良さ 36
最適輸送は⾃然⾔語処理の⼈にとって とても便利なモデル 37 • 最適輸送は⾃然⾔語処理とすごく相性が良い − “近さ” “遠さ” を考えられる空間 で
点群を移し換えるコストを計算する 道具 − 副次効果として アラインメント情報 が得られる 埋込ベース,ニューラルネットベースの各種⼿法 (=対象が⾃然に距離空間に⼊っている状態)との相性が良い ⾼い解釈性︔ 輸送コスト (最適値) だけではなく輸送プラン (最適解) がわかる ⾃然⾔語処理でしばしば要請される 例︓⽂と⽂の関係を単語と単語の関係に帰着させたい 対象間の類似度や距離の計算は ⾃然⾔語処理で頻出 ⾔語的対象は(たいてい)何かの集まり︔再帰的な構造を持つ ⽂=単語列,⽂書=⽂の列,コーパス=⽂集合,…
全体の類似性 ≈ 部分のアラインメントの良さ 38 📄 Sultan+, DLS$@$CU: Sentence Similarity from
Word Alignment and Seman=c Vector Composi=on (SemEval 2015) 📄 渡辺+, 機械翻訳 (コロナ社 2014) 📄 Schraagen&Hoogeboom, Predicting record linkage potential in a family reconstruction graph (BNAIC 2015) ⽂類似度 統計的機械翻訳 編集距離
全体の類似性 = 部分のアラインメントの良さ by 最適輸送 横井, 構造を持った⾔語データと最適輸送, NAIST DSC NLP
Seminar 2022 Summer (2022年9⽉) 39 • 単語・句が似ている = ⽂字をよくアラインメントできる [Tam+ʼ19] • ⽂・⽂書が似ている = 単語をよくアラインメントできる [Kusner+ʼ15][Huang+ʼ16][Zhao+ʼ19][Yokoi+ʼ20][Chen+ʼ20][Wang+ʼ20]… • コーパス・⽣成モデルが似ている = ⽂をよくアラインメント できる [Chen+ʼ18][Semeniuta+ʼ18][Alvarez-Melis&Fusiʼ20]… 📄 Tam+, Optimal Transport-based Alignment of Learned Character Representations for String Similarity (ACL 2019) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Huang+, Supervised Word Mover’s Distance (NIPS 2016) 📄 Zhao+, MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance (EMNLP 2019) 📄 Yokoi+, Word Rotator's Distance (EMNLP 2020) 📄 Chen+, Evaluating Natural Language Generation via Unbalanced Optimal Transport (IJCAI 2020) 📄 Wang+, Robust Document Distance with Wasserstein-Fisher-Rao metric (ACML 2020) 📄 Chen+, Adversarial Text Generation via Feature-Mover’s Distance (NIPS 2018) 📄 Semeniuta+, On Accurate Evaluation of GANs for Language Generation (arXiv 2018) 📄 Alvarez-Melis&Fusi, Geometric Dataset Distances via Optimal Transport (NeurIPS 2020)
全体の類似性 = 部分のアラインメントの良さ by 最適輸送 横井, 構造を持った⾔語データと最適輸送, NAIST DSC NLP
Seminar 2022 Summer (2022年9⽉) 40 まだまだ…︕ • 単語が似ている = 意味素をよくアラインメントできる [Frogner+ʼ19] • 単語が似ている = 共起単語をよくアラインメントできる [Singh+ʼ20] • ⽂・⽂書が似ている = トピックをよくアラインメントできる [Wanʼ07] • ⾔語が似ている = 単語をよくアラインメントできる [Zhang+ʼ17][Alvarez-Melis&Jaakkolaʼ18][Grave+ʼ19][Alvarez-Melis+ʼ19]… 📄 Frogner+, Learning Embeddings into Entropic Wasserstein Spaces (ICLR 2019) 📄 Singh+, Context Mover’s Distance & Barycenters: Optimal Transport of Contexts for Building Representations (AISTATS 2020) 📄 Wan, A novel document similarity measure based on earth mover's distance (Information Sciences 2007) 📄 Zhang+, Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction (EMNLP 2017) 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Grave+, Unsupervised Alignment of Embeddings with Wasserstein Procrustes (AISTATS 2019) 📄 Alvarez-Melis+, Towards Optimal Transport with Global Invariances (AISTATS 2019) おそらく 最適輸送 for ⾃然⾔語処理 の初出
最適輸送 × ⾃然⾔語処理 その2 最適解/アラインメントが 気になるシリーズ 41
不均衡最適輸送 for 単語アラインメント w/Arase-san, Bao-san (ACLʼ23) 42 • ⾔い換え表現間の単語アラインメント 簡単な単語で⾔い直してほしい,
おしゃれな英語にしてほしい,etc. Q. ChatGPT ⽒は正確に 抜け漏れなく⾔い換えてる…︖ アラインメントは (正確性が気になる⼀部の)ユーザ にとって嬉しい説明
不均衡最適輸送 for 単語アラインメント w/Arase-san, Bao-san (ACLʼ23) 43 • ⾔い換え表現間の単語アラインメント 多対多
対応 null aligment Q. ここどうする︖ 簡単な単語で⾔い直してほしい, おしゃれな英語にしてほしい,etc. Q. ChatGPT ⽒は正確に 抜け漏れなく⾔い換えてる…︖ アラインメントは (正確性が気になる⼀部の)ユーザ にとって嬉しい説明
不均衡最適輸送 for 単語アラインメント w/Arase-san, Bao-san (ACLʼ23) 44 • ⾔い換え表現間の単語アラインメント −
1. null alignment があるので不均衡最適輸送を採⽤ − 2. OT の最適値ではなく最適解(輸送⾏列)に損失を流して, 単語埋め込みを作ってくれるモデル(masked language models) を更新 − → 綺麗に動く
グロモフ=ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 45 • 問題︓教師なし辞書構築 − “猫” ↔
“cat” − “科学” ↔ “science” 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Haghighi+, Learning Bilingual Lexicons from Monolingual Corpora (ACL 2008)
グロモフ=ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 46 • 異なる⾔語の埋込集合は,回転 (直交変換) でよく重なり合うこ とが知られている
[Xing+ʼ15] d(vcat , vdog ) ≈ d(v猫 , v⽝ ) d(vcat , vscience ) ≈ d(v猫 , v科学 ) − 位置関係を保存するようにアラインメント → グロモフ=ワッサーシュタイン距離の出番では 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Xing+, Normalized Word Embedding and Orthogonal Transform for Bilingual Word Translation (NAACL 2015) 𝒗(cat) 𝒗(dog) 𝒗(science) 𝒗(technology) 𝒗(猫) 𝒗(⽝) 𝒗(科学) 𝒗(技術) 𝒗(cat) 図 by ⾚間さん (東北⼤)
グロモフ=ワッサースタイン for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 47 • アイデア︓2つの⾔語 (単語ベクトル集合) を グロモフ=ワッサースタイン距離でマッチング
• → 結構できてしまう 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018)
最適輸送 × ⾃然⾔語処理 まとめ 48
まとめ 49 • NLP − ⾔葉の意味の計算をしたい︔⾔語処理,⾔語理解 − ChatGPT︓やることの幅が広がって⾯⽩い時代に − たくさんの⾔語的・機械学習的オープンクエスチョン
– 離散的対象と連続的対象が混ざった空間︔⾔語の複雑さ • OT × NLP − NLP と OT との親和性 – “距離” 空間に埋め込まれている + 再帰構造を持つ − 埋込空間で点群間の距離(最適値)が欲しいケース – e.g. ⽂類似度 − 埋込空間で点群同⼠のアラインメント(最適解)が欲しいケース – e.g. 多⾔語埋込の対応
まとめ 50 • 興味を持たれたかた向けに,OT × NLP の詳細資料︓ • “最適輸送と⾃然⾔語処理,” NLP
2023. − https://speakerdeck.com/eumesy/optimal-transport-for- natural-language-processing − NLPer 向け OT イントロ − 微分可能 OT や不均衡 OT の NLP 活⽤(最適値の話中⼼) • “構造を持った⾔語データと最適輸送,” NAIST DSC NLP Seminar 2023. − https://speakerdeck.com/eumesy/optimal-transport-for- structured-language-data − Wasserstein と Gromov–Wasserstein のアラインメント⽬線での考 え⽅の違い − GW や劣モジュラ OT の NLP 利⽤(最適解の話中⼼)