Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文輪読会 第25回 "Emergent World Representations: Ex...

AcademiX
October 15, 2023
110

論文輪読会 第25回 "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task"

AcademiX が開催した 第25回 論文輪読会 資料

日時:2023/10/15
論文タイトル:Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task(https://arxiv.org/abs/2210.13382)

<概要>
言語モデルの予測に内部表現を使用しているか調べるため,オセロの手を予測するGPTモデルを訓練.高い精度で予測でき,プロービング手法によりボード状態(内部表現)を予測できることを示した.さらに内部表現の制御が予測に因果関係を持ち,潜在的な注目マップはモデル予測の解釈に有効.

AcademiX

October 15, 2023
Tweet

More Decks by AcademiX

Transcript

  1. 今回の論文について • タイトル:Emergent World Representations: Exploring a Sequence Model Trained

    on a Synthetic Task[1] ◦ 引用元の記載のない図は全て上記より引用 • 著者:Kenneth Li, Aspen K. Hopkins, David Bau, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg • URL:https://arxiv.org/abs/2210.13382 • Code: https://github.com/likenneth/othello_world • 選定理由:LLMと世界モデルの関連に興味があり,その一端を示していそうな研究 だと感じたため
  2. 背景 • 言語モデルは”next-word” predictionによる学習で幅広い能力を示すが,その能 力がどのように生じるかは不明 • 仮説 ◦ 表面的な統計を記憶しているのではないか ◦

    「世界モデル」(系列を出力するプロセスのモデル)を保持しているのではないか • 先行研究[2] ◦ チェスの駒の動きの系列を学習し,合法手を高精度で予測 ◦ さらに,盤の状態をモデルが追跡しているように見えることを示す ◦ 内部状態の分析までは行っていない
  3. 目的 • 言語モデルにオセロの系列を学習させる(Othello-GPT) ◦ 高精度で合法手の予測が可能である • 合法手の予測に寄与する内部モデルの存在を,プロービング手法を用いて明 らかにする ◦ 線形プロービングと非線形プロービングを比較し,後者の方が優れていることを示す

    • さらにその内部モデルが予測に因果的な役割を持つことを示す ◦ 内部モデルを制御し盤の状態を変えると,予測が変化する • 「潜在的顕著性マップ」を作成し,モデルがどのように予測しているかを可 視化する
  4. オセロの学習 • データセット ◦ championship:プロの試合を記録したもの(戦略的) ◦ synthetic:合法手だがランダムな動き • モデル ◦

    8層のGPTモデルで,8 headのアテンション機構,隠れ層は512次元 ◦ トークンはオセロ盤のマス目の位置(A4, H6など)を60種類(最初の中央の4つ除く) • 学習 ◦ 自己回帰的に次のトークン(手)を予測するように学習 ◦ causal maskをかける ◦ 最終層のベクトル から線形分類器で次の手を予測 ◦ オセロについての事前知識(ルールやタイルの位置関係など)を用いていない 8 1 T x −
  5. 学習結果 • 検証データセットに対し,各ステップごとに合法手を予測させる ◦ top-1 predictionが正解か否かで評価しエラー率を計算 • 結果 ◦ synthetic:0.01%

    ◦ championship:5.17% ◦ 未学習モデル:93.29% • 仮説:系列をすべて記憶しているだけでは? ◦ skewed dataset(最初の4つの合法手のうち1つを除去)で学習:訓練データセットに現れていない ◦ エラー率は0.02% ◦ どうやら系列を単純に記憶しているのではなさそう
  6. プロービングの比較 • 線形プローブ ◦ モデル:線型変換+softmax ◦ 結果:エラー率は20%を下回らない ◦ 内部表現が線形でないことを示唆 •

    非線形プローブ ◦ モデル:2層のMLP(中間層の活性化関 数はReLU) ◦ 結果 ◦ 線形プローブよりエラー率が低下 ◦ ランダムネットワークについては 線形プローブとあまり変化なし ◦ プロービングにより盤の状態の非自明な 表現が復元されていることを示唆
  7. 介入的実験でプローブを検証:結果 • ベンチマークのデータセット ◦ natural:合法的なプレイで到達可能 ◦ unnatural:合法的なプレイで到達不可能 • 結果 ◦

    L_s=4のときにエラー率が最低(それぞれ0.12, 0.06) ◦ baselineはそれぞれ2.68, 2.59 ◦ unnaturalでも介入的実験が有効である
  8. 潜在的顕著性マップの例 • L_s=4で介入したときのマッ プを右に示す ◦ 上段はsynthetic datasetで学習し たとき.合法手の予測に対する 顕著性が可視化されている ◦

    下段はchampionship datasetで学 習したとき.ルールを学習する だけでなく戦略的な動きを学習 しており,マップも複雑になっ ている.プロのプレイヤが盤の 大局的な特徴を見ていることに 対応していると考えられる
  9. 結論 • Othello-GPTは盤の状態を(非線形な)内部状態として保持している • 内部状態は,モデルの予測に因果的に影響する • 介入的実験により「潜在的顕著性マップ」を作成し,モデルがどう予測したかを可視 化できる • future

    work ◦ さらに複雑なゲームでの検証,オセロの事前知識を組み込んだモデルとゲームの記録から学習した モデルの戦略比較 ◦ 自然言語で訓練されたモデルに今回の結果をどう一般化できるか
  10. 参考文献 [1] Li, Kenneth, et al. "Emergent world representations: Exploring

    a sequence model trained on a synthetic task." arXiv preprint arXiv:2210.13382 (2022). [2] Toshniwal, Shubham, et al. "Chess as a testbed for language model state tracking." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 36. No. 10. 2022.