Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Mechanistic Interpretability の紹介

Mechanistic Interpretability の紹介

神経科学・機械学習に興味があるM1の大学院生がMechanistic Interpretability についてサーベイした結果をまとめたスライドです

Soh Takahashi

April 20, 2024
Tweet

Other Decks in Science

Transcript

  1. 目次 • Mechanistic Interpretability とは? ◦ Mech Interp 研究の具体例 ◦

    神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  2. 目次 • Mechanistic Interpretability とは? ◦ Mech Interp 研究の具体例 ◦

    神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  3. Mechanistic interpretability とは? Neural Network (NN) をリバースエンジニアリングして解釈しようとする分野 1. 解釈対象とする NN

    の behavior (or task) を 決定する 2. NN を計算グラフとして定義 3. 解釈対象の behavior を行うのに必要最低限のサ ブグラフ (circuit) を見つける 4. 見つけた circuit の各ユニットが何をしているの か?を解釈する Indirect object identification task を行う GPT-2 small の circuit 比較的若い分野なので確立された手法があるわけではないがNN の内部に踏み込もうとするのが特徴 OpenAI, Anthropic などの AIスタートアップが主導
  4. 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ

    4. Circuit の内部を解釈 Mech Interp 研究の具体例: Hanna+ 2023 Neurips
  5. 神経科学との関連 • どのニューロン(集団)が何を表象しているのか? • どのようなアルゴリズムで表象されたものが処理されている のか? などの神経科学でも馴染み深い問いを、より実験が容易な neural network に対して分析するような分野

    人間の脳を理解する方向では... • 人間と同じことができる LLM に対して mech interp • 脳活動を模した neural network に対して mech interp などから新たなことがわかるかも? 脳にも使える考え方が出てくるかも?
  6. 目次 • Mechanistic Interpretability とは? ◦ 神経科学との関連 ◦ Mech Interp

    研究の具体例 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  7. Mech Interp 研究における課題 • パラメータの多さ Circuitを手作業で特定しようとするにはNNのパラメータ数があまり にも多い • Polysemanticity(多義性) ニューロンが意味的に異なる複数の文脈で発火する

    (NNを表すグラフのノードをニューロンにしてしまうと、 人間が直観的に理解できる形にならない) • 解釈の方法 Circuit を特定して、その各ユニットをどう解釈するか? 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈
  8. 目次 • Mechanistic Interpretability とは? ◦ Mech Interp 研究の具体例 ◦

    神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  9. パラメータの多さ • 昨今のモデルはパラメータ数が多い • 特定の入力に対する発火パターンを手作業で 確認する、といった方法での circuit の特定は 大規模モデルでは不可能 •

    大規模モデルにも scaling できるような、 circuit の 特定を自動化する手法が必要 →次ページ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈
  10. Automatic Circuit DisCovery (ACDC) Conmy+ 2023 Neurips 1. 出力側から順にエッジを選ぶ 2.

    選ばれたエッジを一時的に切った サブグラフ H newを作る 3. 元のグラフGから得た出力とH new から得た出力の間の KLを計算 4. 現在のサブグラフHとKL が大して 変わらなければ(閾値τを越えなけれ ば)そのエッジは重要ではないので完 全に取り除く 5. 1-4を最後のエッジまで繰り返す Full graph G Current subgraph H New Subgraph H new If 目的: モデルの中でタスクに関連する最小部分 (Circuit) を自動で特定したい τ はハイパラ τ が大きいほど スパースな circuit に
  11. ACDC の問題点 • 閾値のハイパーパラメータ τ にセンシティブ • ACDC を使って得られたサブグラフが正しいのか(特定のタスクを行うため に必要最小限のサブグラフになっているのか)を確かめづらい

    ◦ 論文中では、元のグラフGとのKLと、最終的に得られたサブグラフ Hのエッジ数で評価して いる(少ないエッジ数で元のグラフとの KLが小さいほどよい) 実用上は、ハイパラ τを振って、エッジ 数とKLをモニタリングして、 circuitを特 定することになる
  12. 目次 • Mechanistic Interpretability とは? ◦ Mech Interp 研究の具体例 ◦

    神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  13. NNをグラフと見るときノードをどう定義するか? • グラフのノードを polysemantic なニューロン ではなくて、monosemantic な特徴に対応す るものにした方が解釈性が上がる • Polysemanticity

    をほどいて、そもそもどのよ うな特徴が学習されているのか、を 明らかにする手法が必要 →次ページ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈
  14. Sparse autoencoders find highly interpreable features Cunningham+ 2023 arXiv •

    入力x: モデルの隠れ層の activation vector • モデルの隠れ次元よりも高次元な1層の sparse autoencoder (SAE) を訓練 • モデルのニューロンが持つ polysemantic な特徴を SAE が decompose することを期待 ◦ autoencoder のスパース性が重要
  15. 目次 • Mechanistic Interpretability とは? ◦ Mech Interp 研究の具体例 ◦

    神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  16. Circuit の各ユニットの解釈手法 特定された circuit(あるタスクに必要な必要最低限なサブグラ フ)の各ユニットが何を表していて、どのような処理がされてい るのか?の解釈手法 • 入力に対する活動パターンを可視化 ◦ attention

    pattern の可視化 ◦ 中間層の活動の un-embedding • Circuit 内への介入による出力の変化を調べる • LLMを複数個使って、LLM にそのニューロンが何をして いるのかをテキストで出力させる方法 Bills+ 2023 など 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈
  17. まとめ • Mechanistic Interpretability は NN をグラフとして見て、特定の タスクに関するサブグラフ (circuit) を見つけて、circuitの中身をリバースエ

    ンジニアリングする分野 • 大規模モデルで circuit を自動で特定する方法: ACDC • Monosemantic なノードを見つける方法: sparse aturoencoder • 解釈手法: 可視化・介入・LLM による説明 など