論文輪読会第25回 "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task"

https://www.academix.jp/ AcademiX 論文輪読会 Emergent World Representations: Exploring a Sequence Model
Trained on a Synthetic Task 2023/10/15

今回の論文について • タイトル：Emergent World Representations: Exploring a Sequence Model Trained
on a Synthetic Task[1] ◦ 引用元の記載のない図は全て上記より引用 • 著者：Kenneth Li, Aspen K. Hopkins, David Bau, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg • URL：https://arxiv.org/abs/2210.13382 • Code： https://github.com/likenneth/othello_world • 選定理由：LLMと世界モデルの関連に興味があり，その一端を示していそうな研究だと感じたため

背景 • 言語モデルは”next-word” predictionによる学習で幅広い能力を示すが，その能力がどのように生じるかは不明 • 仮説 ◦ 表面的な統計を記憶しているのではないか ◦
「世界モデル」（系列を出力するプロセスのモデル）を保持しているのではないか • 先行研究[2] ◦ チェスの駒の動きの系列を学習し，合法手を高精度で予測 ◦ さらに，盤の状態をモデルが追跡しているように見えることを示す ◦ 内部状態の分析までは行っていない

目的 • 言語モデルにオセロの系列を学習させる（Othello-GPT） ◦ 高精度で合法手の予測が可能である • 合法手の予測に寄与する内部モデルの存在を，プロービング手法を用いて明らかにする ◦ 線形プロービングと非線形プロービングを比較し，後者の方が優れていることを示す
• さらにその内部モデルが予測に因果的な役割を持つことを示す ◦ 内部モデルを制御し盤の状態を変えると，予測が変化する • 「潜在的顕著性マップ」を作成し，モデルがどのように予測しているかを可視化する

オセロの学習 • データセット ◦ championship：プロの試合を記録したもの（戦略的） ◦ synthetic：合法手だがランダムな動き • モデル ◦
8層のGPTモデルで，8 headのアテンション機構，隠れ層は512次元 ◦ トークンはオセロ盤のマス目の位置（A4, H6など）を60種類（最初の中央の4つ除く） • 学習 ◦ 自己回帰的に次のトークン（手）を予測するように学習 ◦ causal maskをかける ◦ 最終層のベクトルから線形分類器で次の手を予測 ◦ オセロについての事前知識（ルールやタイルの位置関係など）を用いていない 8 1 T x −

学習結果 • 検証データセットに対し，各ステップごとに合法手を予測させる ◦ top-1 predictionが正解か否かで評価しエラー率を計算 • 結果 ◦ synthetic：0.01%
◦ championship：5.17% ◦ 未学習モデル：93.29% • 仮説：系列をすべて記憶しているだけでは？ ◦ skewed dataset（最初の4つの合法手のうち１つを除去）で学習：訓練データセットに現れていない ◦ エラー率は0.02% ◦ どうやら系列を単純に記憶しているのではなさそう

プロービングで内部状態を分析 • プローブとは，目的のモデルの内部活性を入力して，特定の特徴を出力するための分類器や回帰器 ◦ ここでは，Othello-GPTの中間層が現在の盤の状態に対応しているか • 方法 ◦ 内部状態
をとる（lはレイヤ，tはタイムステップ） ◦ プローブの予測：それぞれのタイルが黒，白，空の確率を予測 l t x ( ) l t p x 

プロービングの比較 • 線形プローブ ◦ モデル：線型変換+softmax ◦ 結果：エラー率は20％を下回らない ◦ 内部表現が線形でないことを示唆 •
非線形プローブ ◦ モデル：2層のMLP（中間層の活性化関数はReLU） ◦ 結果 ◦ 線形プローブよりエラー率が低下 ◦ ランダムネットワークについては線形プローブとあまり変化なし ◦ プロービングにより盤の状態の非自明な表現が復元されていることを示唆

介入的実験でプローブを検証 • 獲得されている内部表現がモデルの予測に因果的な影響を及ぼしているか？ ◦ Othello-GPTの計算中の中間層の状態から，プローブで盤の状態Bを予測 ◦ 中間層を変更し，盤の状態をB’（Bと1つのタイルのみが異なる）に変更する ◦ 新しい予測がB’から動かせる状態と合致すれば，因果的な影響があると考える •
具体的方法 ◦ 介入前の情報の影響を防ぐため，目的のレイヤ以降のすべてのレイヤで介入を行う ◦ 新しい盤の状態B’とプローブの予測を近づけるように，中間層の状態を勾配降下法で修正する

介入的実験でプローブを検証：結果 • ベンチマークのデータセット ◦ natural：合法的なプレイで到達可能 ◦ unnatural：合法的なプレイで到達不可能 • 結果 ◦
L_s=4のときにエラー率が最低（それぞれ0.12, 0.06） ◦ baselineはそれぞれ2.68, 2.59 ◦ unnaturalでも介入的実験が有効である

潜在的顕著性マップ • モデルによる合法手の予測を文脈化する ◦ 盤Bの各タイルsに対し，sの状態を変更したらタイルpの予測確率がどのくらい変化するか ◦ この値がpの予測に関する顕著性に対応する ◦ top-1 predictionに関する顕著性の
マップを可視化できる：潜在的顕著性マップ ◦ アルゴリズム→

潜在的顕著性マップの例 • L_s=4で介入したときのマップを右に示す ◦ 上段はsynthetic datasetで学習したとき．合法手の予測に対する顕著性が可視化されている ◦
下段はchampionship datasetで学習したとき．ルールを学習するだけでなく戦略的な動きを学習しており，マップも複雑になっている．プロのプレイヤが盤の大局的な特徴を見ていることに対応していると考えられる

結論 • Othello-GPTは盤の状態を（非線形な）内部状態として保持している • 内部状態は，モデルの予測に因果的に影響する • 介入的実験により「潜在的顕著性マップ」を作成し，モデルがどう予測したかを可視化できる • future
work ◦ さらに複雑なゲームでの検証，オセロの事前知識を組み込んだモデルとゲームの記録から学習したモデルの戦略比較 ◦ 自然言語で訓練されたモデルに今回の結果をどう一般化できるか

考察・感想 • 内部状態に介入しても正しく予測するというのが，世界を正しくシミュレートすることに対応しているのではと感じた→行動を組み込むヒントに？ • ある種因果推論的なアプローチで興味深かった • latent saliency mapは発想がattention
mapに近そうに見える（手法としては別物だが） ◦ 対比的説明(XAI)に近いか？

参考文献 [1] Li, Kenneth, et al. "Emergent world representations: Exploring
a sequence model trained on a synthetic task." arXiv preprint arXiv:2210.13382 (2022). [2] Toshniwal, Shubham, et al. "Chess as a testbed for language model state tracking." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 36. No. 10. 2022.

論文輪読会第25回 "Emergent World Representations: Ex...

論文輪読会第25回 "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task"

AcademiX

More Decks by AcademiX

Featured

Transcript

https://www.academix.jp/ AcademiX 論文輪読会 Emergent World Representations: Exploring a Sequence Model

今回の論文について • タイトル：Emergent World Representations: Exploring a Sequence Model Trained

背景 • 言語モデルは”next-word” predictionによる学習で幅広い能力を示すが，その能力がどのように生じるかは不明 • 仮説 ◦ 表面的な統計を記憶しているのではないか ◦

オセロの学習 • データセット ◦ championship：プロの試合を記録したもの（戦略的） ◦ synthetic：合法手だがランダムな動き • モデル ◦

学習結果 • 検証データセットに対し，各ステップごとに合法手を予測させる ◦ top-1 predictionが正解か否かで評価しエラー率を計算 • 結果 ◦ synthetic：0.01%

プロービングで内部状態を分析 • プローブとは，目的のモデルの内部活性を入力して，特定の特徴を出力するための分類器や回帰器 ◦ ここでは，Othello-GPTの中間層が現在の盤の状態に対応しているか • 方法 ◦ 内部状態

プロービングの比較 • 線形プローブ ◦ モデル：線型変換+softmax ◦ 結果：エラー率は20％を下回らない ◦ 内部表現が線形でないことを示唆 •

介入的実験でプローブを検証：結果 • ベンチマークのデータセット ◦ natural：合法的なプレイで到達可能 ◦ unnatural：合法的なプレイで到達不可能 • 結果 ◦

潜在的顕著性マップの例 • L_s=4で介入したときのマップを右に示す ◦ 上段はsynthetic datasetで学習したとき．合法手の予測に対する顕著性が可視化されている ◦

参考文献 [1] Li, Kenneth, et al. "Emergent world representations: Exploring

論文輪読会 第25回 "Emergent World Representations: Ex...

論文輪読会 第25回 "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task"

More Decks by AcademiX

Featured

Transcript

論文輪読会第25回 "Emergent World Representations: Ex...

論文輪読会第25回 "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task"