Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Minding Language Models’ (Lack of) Theory ...

論文紹介:Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker

第15回最先端NLP勉強会 (2023年08月28-29日) での発表スライドです。

Kazutoshi Shinoda

August 21, 2023
Tweet

More Decks by Kazutoshi Shinoda

Other Decks in Research

Transcript

  1. Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play

    Multi-Character Belief Tracker Melanie Sclar, Sachin Kumar, Peter West, Alane Suhr, Yejin Choi, Yulia Tsvetkov ACL2023 第15回 最先端NLP勉強会(2023年8月27-28日) 紹介者:篠田 一聡(NTT コンピュータ&データサイエンス研究所)
  2. 概要 背景 • Theory-of-Mind (ToM) という他人の信念などを推測する機能を評価する読解タスク (ToMi) で、教師ありモデルは高い精度を出せる (Arodi and

    Cheung, 2021) 一方で、GPT-3 (few-shot) は苦戦していた (Sap et al., 2022)。 貢献 • 訓練を必要としない、推論用アルゴリズムの SymbolicToM を提案。色々な LLM に適用する ことで ToMi ベンチマークでの精度を向上。 • 提案手法は記号表現(グラフ)を用いるので、 解釈可能性が高い。 • LLM + SymbolicToM は、教師ありモデルや普通に使う LLM よりもわずかな入力の変化に対 して頑健であることを示した。 2
  3. 背景:Theory-of-Mind(心の理論) Q: Theory-of-Mindとは? A: “心の理論(Theory of Mind, ToM)は、ヒトや類人猿などが、他者の心の状態、目的、意図、知識、信 念、志向、疑念、推測などを推測する直観による心の機能のことである。 ”

    (Wikipedia) Q: なぜ LLM が ToM を獲得すべきか? A: LLM に ToM などの社会的知能を身につけさせることを通して、人間の社会的知能についての理解を 深めることは学術的に大事(構成論的アプローチ)。応用の観点からも、(メールの自動補完など)人同士 のコミュニケーションをより良くするために LLM が役立つためには、ToM のような社会的知能を身につけ させることが必要。 3
  4. 背景:Theory-of-Mind(心の理論)の最近の研究 本研究以外にも、今年の ACL と ICLR でいくつか論文がある • I Cast Detect

    Thoughts: Learning to Converse and Guide with Intents and Theory-of-Mind in Dungeons and Dragons (ACL2023 main) • Theory of Mind in Freely-Told Children’s Narratives: A Classification Approach (ACL2023 findings) • Speaking the Language of Your Listener: Audience-Aware Adaptation via Plug-and-Play Theory of Mind (ACL2023 findings) • Computational Language Acquisition with Theory of Mind (ICLR2023) ICML2023 では 1st Workshop on Theory-of-Mind が開催されるなど、研究者からの 注目が集まっている印象 4
  5. 背景:ToM をどう評価するか? ToM の中心的な要件である サリーとアン課題※ (Baron-Cohen et al., 1985) を読解タスクとしてモデルに解かせて評価する

    (Nematzadeh et al., 2018)。 例)右上の文章を読んで質問 (*) (**) に正しく答えられれば OK。 (*) Bob は セロリ (celery) がどこにあると思っているか? (= first-order ToM) 正解:box (**) Alice はセロリがどこにあると思っていると Bob は思っ ているか? (= second-order ToM) 正解:basket 5 ※発達心理学で、子供の社会的な認知能力を測るために使われるテスト。自閉症の子供は正しく答えられないことが多いらしい。
  6. 背景:GPT-3 をはじめとする LLM は ToM が苦手 • GPT-3 (few-shot) はToMのベンチマークで55~60%の精度しか出せず、教師ありモデル

    (80~90%) に負ける (Sap et al. 2022)。 6 質問 (**) で実際に間違っている例(正 解:basket)
  7. 手法:訓練を必要としない推論アルゴリズム SymbolicToM を提案 Symbolic ToM 入力: (sentences, question) (sentencesの一部, question’)

    LLM 出力:answer 提案手法 既存手法 入力: (sentences, question) LLM or 教師ありモデル 出力:answer 󰢐質問に答えるのに必要ない紛らわしい文を入力から消 すことで、普通にLLMを使うよりも高精度 󰢐訓練を必要としないのでバイアスを学習せず、教師あり モデルよりも頑健 7
  8. Notation • p ◦ 登場人物 (e.g., Bob) • Bp1p2…pk ◦

    p1 thinks that p2 thinks that [...] pk thinks about the world state. (e.g., BBob,Alice) ◦ Bは右図のようにグラフとして表現 ◦ ノードは物体などのentity、エッジはentity 同士の関係 • G ◦ 本当の世界の状態。 Bと同様にグラフとし て表現。 • B (= G) … true belief • B (≠ G) … false belief BBob,Alice BBob 8
  9. 手法:まず Belief の構築 入力の文章を1文ずつ前から順に処理していく。各文 s で 以下の操作を行う。 • 本当の世界の状態 G

    を更新 ◦ NLI: “文→Gのエッジ” 矛盾するエッジを削除 ◦ GPT-3: “Bob then moves the celery to the box”→“The celery is in the box”に変換 ◦ OpenIE: “The celery is in the box” → (celery, box, is in) • 目撃者たち W を検知 ◦ 上記操作によって構築された G に繋がってい る登場人物を全員目撃者とする • (p1…pk) が全員目撃者である時に、G への更新を Bp1…pk に反映 この時、グラフの各エッジは文章中の1文と対応している 11
  10. 実験設定 評価は3種類のテストセットで行う • ToMi (Le et al., 2019); ToM を評価する唯一の大規模な読解データセット

    • Story Structure Robustness Test Sets • ParaphrasedToMi ベースライン • LLM ◦ GPT-3/3.5/4, LLaMA-7/13B, etc. • 教師ありモデル ◦ Fine-tuned GPT-3 Curie (6000のデータで1epoch 訓練) ◦ TTT (Arodi and Cheung, 2021), LLMではない, 87k params 13
  11. 結果 - ToMi • ToMiベンチマークで評価。 ◦ 横軸:LLMの精度 ◦ 縦軸:LLM +

    SymbolicToMの精度 • 提案手法を使うことでほとんどのLLM の性能を向上。教師ありモデルに匹 敵することも。 15
  12. 結果 - ToMi • ToMiベンチマークで評価。 ◦ 横軸:LLMの精度 ◦ 縦軸:LLM +

    SymbolicToMの精度 • 提案手法を使うことでほとんどのLLM の性能を向上。教師ありモデルに匹 敵することも。 • 教師ありモデル(Fine-tuned GPT-3 CurieとTTT)はテストセットと同じドメ インで訓練されているのでかなり高い 精度。 16
  13. 結果 - Robustness • 頑健性を評価するための3つのテストセット を作成。サイズは100。 ◦ D1: 文章を長く複雑に ◦

    D2: 登場人物と物体を3つに増やす ◦ D3: 物体の場所を4つに増やす • LLM、教師ありモデルはともに頑健性が低い 18
  14. 結果 - Robustness • 頑健性を評価するための3つのテストセット を作成。サイズは100。 ◦ D1: 文章を長く複雑に ◦

    D2: 登場人物と物体を3つに増やす ◦ D3: 物体の場所を4つに増やす • LLM、教師ありモデルはともに頑健性が低い • SymbolicToMによって頑健性は大幅に向 上。GPT-3.5/4ではほぼ100%。 (提案法に有利なテストセットなのでは ...?) 19
  15. 結果 - ParaphrasedToMi GPT3-DavinciでToMiテストセットからパラフ レーズ生成して頑健性を評価 • 教師ありモデルは概ね精度が劣化。 • 一方で提案手法の SymbolicToM

    は比 較的精度を保てている。 ◦ 提案手法で精度が下がっている原因は、 Beliefの構築の時に使う NLI/GPT-3/OpenIEのエラー。 22
  16. まとめ • 推論用のアルゴリズム SymbolicToM を提案。LLM に適用することでToMiベンチマークでの 精度を改善でき、教師ありモデルに匹敵。 • 訓練を必要としないのでデータセットバイアスを学習せず、教師ありモデルよりもエンティティの 数の変化などに対して頑健

    • パラフレーズへの頑健性の向上は今後の課題 感想 • 本当の世界の状態と各人物の Beliefを区別して構築すること自体が貢献として大きそう • 提案手法はかなりタスクの前提に依存している印象(例えば、世界で起こっていることが全て言語で時系 列順に記述されている前提で手法が設計されている)で、違う設定には汎化できなさそう。 • 実世界では言語化されないことがほとんどな気もするので、 KokoMindのように動画入力で ToMを評価す るのも応用上は大事そう。 24
  17. 参考文献 • Maarten Sap, Ronan Le Bras, Daniel Fried, Yejin

    Choi. 2022. Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs. In EMNLP. • Matthew Le, Y-Lan Boureau, Maximilian Nickel. 2019. Revisiting the Evaluation of Theory of Mind through Question Answering. In EMNLP. • Akshatha Arodi and Jackie Chi Kit Cheung. 2021. Textual Time Travel: A Temporally Informed Approach to Theory of Mind. In EMNLP. • Alan M Leslie, Ori Friedman, and Tim P German. 2004. Core mechanisms in ‘theory of mind’. Trends in cognitive sciences, 8(12):528–533. • Weiyan Shi* and Liang Qiu* and Dehong Xu and Pengwei Sui and Pan Lu and Zhou Yu. 2023. KokoMind: Can LLMs Understand Social Interactions? 25