Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker

論文紹介:Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker

第15回最先端NLP勉強会 (2023年08月28-29日) での発表スライドです。

Kazutoshi Shinoda

August 21, 2023
Tweet

Other Decks in Research

Transcript

  1. Minding Language Models’ (Lack of)
    Theory of Mind: A Plug-and-Play
    Multi-Character Belief Tracker
    Melanie Sclar, Sachin Kumar, Peter West, Alane Suhr, Yejin Choi, Yulia Tsvetkov
    ACL2023
    第15回 最先端NLP勉強会(2023年8月27-28日)
    紹介者:篠田 一聡(NTT コンピュータ&データサイエンス研究所)

    View full-size slide

  2. 概要
    背景
    ● Theory-of-Mind (ToM) という他人の信念などを推測する機能を評価する読解タスク (ToMi)
    で、教師ありモデルは高い精度を出せる (Arodi and Cheung, 2021) 一方で、GPT-3
    (few-shot) は苦戦していた (Sap et al., 2022)。
    貢献
    ● 訓練を必要としない、推論用アルゴリズムの SymbolicToM を提案。色々な LLM に適用する
    ことで ToMi ベンチマークでの精度を向上。
    ● 提案手法は記号表現(グラフ)を用いるので、
    解釈可能性が高い。
    ● LLM + SymbolicToM は、教師ありモデルや普通に使う LLM よりもわずかな入力の変化に対
    して頑健であることを示した。
    2

    View full-size slide

  3. 背景:Theory-of-Mind(心の理論)
    Q: Theory-of-Mindとは?
    A: “心の理論(Theory of Mind, ToM)は、ヒトや類人猿などが、他者の心の状態、目的、意図、知識、信
    念、志向、疑念、推測などを推測する直観による心の機能のことである。
    ” (Wikipedia)
    Q: なぜ LLM が ToM を獲得すべきか?
    A: LLM に ToM などの社会的知能を身につけさせることを通して、人間の社会的知能についての理解を
    深めることは学術的に大事(構成論的アプローチ)。応用の観点からも、(メールの自動補完など)人同士
    のコミュニケーションをより良くするために LLM が役立つためには、ToM のような社会的知能を身につけ
    させることが必要。
    3

    View full-size slide

  4. 背景:Theory-of-Mind(心の理論)の最近の研究
    本研究以外にも、今年の ACL と ICLR でいくつか論文がある
    ● I Cast Detect Thoughts: Learning to Converse and Guide with Intents and Theory-of-Mind in
    Dungeons and Dragons (ACL2023 main)
    ● Theory of Mind in Freely-Told Children’s Narratives: A Classification Approach (ACL2023 findings)
    ● Speaking the Language of Your Listener: Audience-Aware Adaptation via Plug-and-Play Theory of
    Mind (ACL2023 findings)
    ● Computational Language Acquisition with Theory of Mind (ICLR2023)
    ICML2023 では 1st Workshop on Theory-of-Mind が開催されるなど、研究者からの
    注目が集まっている印象
    4

    View full-size slide

  5. 背景:ToM をどう評価するか?
    ToM の中心的な要件である サリーとアン課題※ (Baron-Cohen
    et al., 1985) を読解タスクとしてモデルに解かせて評価する
    (Nematzadeh et al., 2018)。
    例)右上の文章を読んで質問 (*) (**) に正しく答えられれば
    OK。
    (*) Bob は セロリ (celery) がどこにあると思っているか? (=
    first-order ToM) 正解:box
    (**) Alice はセロリがどこにあると思っていると Bob は思っ
    ているか? (= second-order ToM) 正解:basket
    5
    ※発達心理学で、子供の社会的な認知能力を測るために使われるテスト。自閉症の子供は正しく答えられないことが多いらしい。

    View full-size slide

  6. 背景:GPT-3 をはじめとする LLM は ToM が苦手
    ● GPT-3 (few-shot) はToMのベンチマークで55~60%の精度しか出せず、教師ありモデル (80~90%)
    に負ける (Sap et al. 2022)。
    6
    質問 (**) で実際に間違っている例(正
    解:basket)

    View full-size slide

  7. 手法:訓練を必要としない推論アルゴリズム SymbolicToM を提案
    Symbolic ToM
    入力: (sentences, question)
    (sentencesの一部, question’)
    LLM
    出力:answer
    提案手法
    既存手法
    入力: (sentences, question)
    LLM or
    教師ありモデル
    出力:answer
    󰢐質問に答えるのに必要ない紛らわしい文を入力から消
    すことで、普通にLLMを使うよりも高精度
    󰢐訓練を必要としないのでバイアスを学習せず、教師あり
    モデルよりも頑健
    7

    View full-size slide

  8. Notation
    ● p
    ○ 登場人物 (e.g., Bob)
    ● Bp1p2…pk
    ○ p1 thinks that p2 thinks that [...] pk
    thinks about the world state. (e.g.,
    BBob,Alice)
    ○ Bは右図のようにグラフとして表現
    ○ ノードは物体などのentity、エッジはentity
    同士の関係
    ● G
    ○ 本当の世界の状態。 Bと同様にグラフとし
    て表現。
    ● B (= G) … true belief
    ● B (≠ G) … false belief
    BBob,Alice
    BBob
    8

    View full-size slide

  9. 手法:SymbolicToM の全体像
    9

    View full-size slide

  10. 手法:まず Belief の構築
    10
    文章 Bp1p2…pk

    View full-size slide

  11. 手法:まず Belief の構築
    入力の文章を1文ずつ前から順に処理していく。各文 s で
    以下の操作を行う。
    ● 本当の世界の状態 G を更新
    ○ NLI: “文→Gのエッジ” 矛盾するエッジを削除
    ○ GPT-3: “Bob then moves the celery to the box”→“The
    celery is in the box”に変換
    ○ OpenIE: “The celery is in the box” → (celery, box, is in)
    ● 目撃者たち W を検知
    ○ 上記操作によって構築された G に繋がってい
    る登場人物を全員目撃者とする
    ● (p1…pk) が全員目撃者である時に、G への更新を
    Bp1…pk に反映
    この時、グラフの各エッジは文章中の1文と対応している
    11

    View full-size slide

  12. 手法:残り
    12
    グラフの各エッジは文章中の1
    文と対応しているのを利用
    質問を言い換える
    質問中のエンティティと関係する
    Belief を持ってくる

    View full-size slide

  13. 実験設定
    評価は3種類のテストセットで行う
    ● ToMi (Le et al., 2019); ToM を評価する唯一の大規模な読解データセット
    ● Story Structure Robustness Test Sets
    ● ParaphrasedToMi
    ベースライン
    ● LLM
    ○ GPT-3/3.5/4, LLaMA-7/13B, etc.
    ● 教師ありモデル
    ○ Fine-tuned GPT-3 Curie (6000のデータで1epoch 訓練)
    ○ TTT (Arodi and Cheung, 2021), LLMではない, 87k params
    13

    View full-size slide

  14. 結果 - ToMi
    ● ToMiベンチマークで評価。
    ○ 横軸:LLMの精度
    ○ 縦軸:LLM + SymbolicToMの精度
    14

    View full-size slide

  15. 結果 - ToMi
    ● ToMiベンチマークで評価。
    ○ 横軸:LLMの精度
    ○ 縦軸:LLM + SymbolicToMの精度
    ● 提案手法を使うことでほとんどのLLM
    の性能を向上。教師ありモデルに匹
    敵することも。
    15

    View full-size slide

  16. 結果 - ToMi
    ● ToMiベンチマークで評価。
    ○ 横軸:LLMの精度
    ○ 縦軸:LLM + SymbolicToMの精度
    ● 提案手法を使うことでほとんどのLLM
    の性能を向上。教師ありモデルに匹
    敵することも。
    ● 教師ありモデル(Fine-tuned GPT-3
    CurieとTTT)はテストセットと同じドメ
    インで訓練されているのでかなり高い
    精度。
    16

    View full-size slide

  17. 結果 - Robustness
    ● 頑健性を評価するための3つのテストセット
    を作成。サイズは100。
    ○ D1: 文章を長く複雑に
    ○ D2: 登場人物と物体を3つに増やす
    ○ D3: 物体の場所を4つに増やす
    17

    View full-size slide

  18. 結果 - Robustness
    ● 頑健性を評価するための3つのテストセット
    を作成。サイズは100。
    ○ D1: 文章を長く複雑に
    ○ D2: 登場人物と物体を3つに増やす
    ○ D3: 物体の場所を4つに増やす
    ● LLM、教師ありモデルはともに頑健性が低い
    18

    View full-size slide

  19. 結果 - Robustness
    ● 頑健性を評価するための3つのテストセット
    を作成。サイズは100。
    ○ D1: 文章を長く複雑に
    ○ D2: 登場人物と物体を3つに増やす
    ○ D3: 物体の場所を4つに増やす
    ● LLM、教師ありモデルはともに頑健性が低い
    ● SymbolicToMによって頑健性は大幅に向
    上。GPT-3.5/4ではほぼ100%。
    (提案法に有利なテストセットなのでは ...?)
    19

    View full-size slide

  20. 結果 - ParaphrasedToMi
    GPT3-DavinciでToMiテストセットからパラフ
    レーズ生成して頑健性を評価
    20

    View full-size slide

  21. 結果 - ParaphrasedToMi
    GPT3-DavinciでToMiテストセットからパラフ
    レーズ生成して頑健性を評価
    ● 教師ありモデルは概ね精度が劣化。
    21

    View full-size slide

  22. 結果 - ParaphrasedToMi
    GPT3-DavinciでToMiテストセットからパラフ
    レーズ生成して頑健性を評価
    ● 教師ありモデルは概ね精度が劣化。
    ● 一方で提案手法の SymbolicToM は比
    較的精度を保てている。
    ○ 提案手法で精度が下がっている原因は、
    Beliefの構築の時に使う
    NLI/GPT-3/OpenIEのエラー。
    22

    View full-size slide

  23. 後続の研究:KokoMind データセット (Shi et al., 2023)
    複数人が話している動画から非言語・言語情報を抽出してコンテキストとし、
    ToM を評価する質
    問などをLLMに与えて答えさせる。より現実に近い設定での評価が可能。
    (論文はない...)
    23
    https://chats-lab.github.io/KokoMind/

    View full-size slide

  24. まとめ
    ● 推論用のアルゴリズム SymbolicToM を提案。LLM に適用することでToMiベンチマークでの
    精度を改善でき、教師ありモデルに匹敵。
    ● 訓練を必要としないのでデータセットバイアスを学習せず、教師ありモデルよりもエンティティの
    数の変化などに対して頑健
    ● パラフレーズへの頑健性の向上は今後の課題
    感想
    ● 本当の世界の状態と各人物の Beliefを区別して構築すること自体が貢献として大きそう
    ● 提案手法はかなりタスクの前提に依存している印象(例えば、世界で起こっていることが全て言語で時系
    列順に記述されている前提で手法が設計されている)で、違う設定には汎化できなさそう。
    ● 実世界では言語化されないことがほとんどな気もするので、 KokoMindのように動画入力で ToMを評価す
    るのも応用上は大事そう。
    24

    View full-size slide

  25. 参考文献
    ● Maarten Sap, Ronan Le Bras, Daniel Fried, Yejin Choi. 2022. Neural
    Theory-of-Mind? On the Limits of Social Intelligence in Large LMs. In EMNLP.
    ● Matthew Le, Y-Lan Boureau, Maximilian Nickel. 2019. Revisiting the
    Evaluation of Theory of Mind through Question Answering. In EMNLP.
    ● Akshatha Arodi and Jackie Chi Kit Cheung. 2021. Textual Time Travel: A
    Temporally Informed Approach to Theory of Mind. In EMNLP.
    ● Alan M Leslie, Ori Friedman, and Tim P German. 2004. Core mechanisms in
    ‘theory of mind’. Trends in cognitive sciences, 8(12):528–533.
    ● Weiyan Shi* and Liang Qiu* and Dehong Xu and Pengwei Sui and Pan Lu
    and Zhou Yu. 2023. KokoMind: Can LLMs Understand Social Interactions?
    25

    View full-size slide