Mechanistic Interpretability：解釈可能性研究の新たな潮流

Mechanistic Interpretability：解釈可能性研究の新たな潮流青木洸士郎1 高槻瞭大2,3 峰岸剛基3 1早稲田大学
2一般社団法人AIアライメントネットワーク 3東京大学人工知能学会全国大会 (第39回) オーガナイズドセッション Mechanistic Interpretability 2025年5月29日

1 ⚫ Mechanistic Interpretability（MI）とは？ ⚫ MIはどのようにして生まれた？ ⚫ 他の解釈可能性との違いは何？ ⚫ どのような手法がある？
⚫ どのような課題がある？本発表の目的

2 Mechanistic Interpretability とは？よくある解釈可能性のイメージ深層ニューラルネットワークはブラックボックスだから、どういうプロセスで「東京」を予測したかわからない日本の首都は東京
?

3 Mechanistic Interpretability とは？よくある解釈可能性のイメージ日本の首都は東京しかし、実際はアーキテクチャも重みも訓練方法もわかっている
では、何がわからないのか？ 0.1 -0.3 0.2 0.3 -0.5 0.1 -0.2 0.6 実装レベル

日本の首都は東京 4 Mechanistic Interpretability とは？わからないもの入力から出力までを体系的に記述したアルゴリズム
def get_capital(country): capitals = { "Japan": "Tokyo", "France": "Paris", … } capital = capitals[country] return capital ？実装レベルアルゴリズムレベル

5 Mechanistic Interpretability とは？ def get_capital(country): capitals = { "Japan":
"Tokyo", "France": "Paris", … } capital = capitals[country] return capital Mechanistic Interpretability 日本の首都は東京実装レベルアルゴリズムレベルわからないもの入力から出力までを体系的に記述したアルゴリズム

6 Mechanistic Interpretability とは？コンピュータプログラムとのアナロジー def get_capital(country): capitals = {
"Japan": "Tokyo", "France": "Paris", … } capital = capitals[country] return capital リバースエンジニアリング Mechanistic Interpretability 日本の首都は東京 1001100 1101001 1000001 Tokyo Japan 実装レベル実装レベルアルゴリズムレベル

7 MIはどのようにして生まれた？黎明期 (2020-2021年) ⚫ OpenAIの研究者らによるブログ「Thread: Circuits」を通じて公に ⚫ 主にコンピュータビジョン分野 (CNN)
での研究 ◦ フィルタやニューロンが検出する模様、エッジ、パーツの可視化 ◦ 目的：最終出力に至る過程をボトムアップに把握 Olah+, Zoom In: An Introduction to Circuits (Distill 2020)

8 MIはどのようにして生まれた？ LLMの台頭と研究対象の変化 ⚫ 研究対象が自
然言語処理、特に TransformerベースのLLMへ移行 ⚫ Anthropicの研究者らによるブログ「Transformer Circuits Thread」が開始 NLPにおける解釈可能性の論文数 Chiruzzo+, On Behalf of the Stakeholders: Trends in NLP Model Interpretability in the Era of LLMs (NAACL2025)

9 MIはどのようにして生まれた？ AIアライメントの文脈 ⚫ LLMの性能向上に伴い、ブラックボックスのまま信用してよいかという疑問が強まる ⚫ AI安全性のための技術のひとつとして主要AI企業が継続的に研究を発表 (Anthropic, Google
DeepMind, OpenAI) ⚫ 海外ではMI特化のスタートアップもいくつか生まれている (Goodfire AI, Tilde, Transluce)

10 他の解釈可能性との違いモデル特徴量1 特徴量2 特徴量3 予測 Behavioral Interpretability &
Attribution Methods ⚫ SHAP, LIME, Saliency Map, Integrated Gradients など ⚫ モデルをブラックボックスとして扱い、入出力の対応関係に注目 ⚫ モデル内部のアルゴリズムはわからない

11 他の解釈可能性との違い Concept-Based Interpretability ⚫ Probing, Concept Activation Vectors など
⚫ モデル内部で抽象概念がどう表現されるかをトップダウンに調査する ⚫ 概念を操作したりもする（Representation Engineering） ⚫ 因果構造やメカニズムには言及しない事前に定義された概念

12 他の解釈可能性との違い MIたらしめるもの ⚫ 技術的側面： ◦ モデル内部の因果構造やメカニズムをボトムアップに解明することが中心的理念 ◦ ただし、方法論の一部としてMIも既存手法を用いることがある
⚫ 文化的側面： ◦ AIアラインメントの文脈で語られることが多い ◦ 研究成果がブログやオープンなプラットフォームで共有されることが多い

13 基本概念 ― 特徴量, 回路, 普遍性, 多義性, 重ね合わせ ―

14 基本概念特徴量 (Features) ⚫ モデルの入力に内在するパターン ⚫ モデル解釈の基本単位線形表現仮説 ⚫
特徴量はモデルの表現空間の「方向」に対応するという仮説 ⚫ 議論の余地あり Park+, The Linear Representation Hypothesis and the Geometry of Large Language Models (NeurIPS 2023) 犬 dog

15 基本概念回路 (Circuits) ⚫ ある特徴量の集合を入力とし、後続のある特徴量の集合を出力するサブネットワーク ⚫ 実用的には、モデルが特定のタスクを解くための必要十分なサブネットワークを指すことが多い
Olah+, Zoom In: An Introduction to Circuits (Distill 2020) 特徴量「窓」特徴量「車体」特徴量「車輪」特徴量「車」

17 基本概念普遍性 (Universality) ⚫ 特徴量や回路がタスクやアーキテクチャを超えて類似する ⚫ 特定のモデルの解釈が他のモデルにも役立つ可能性を示唆 Olah+, Zoom
In: An Introduction to Circuits (Distill 2020)

18 基本概念多義性 (Polysemanticity) ⚫ 1つのニューロンが複数の特徴量に反応すること ⚫ 初期MIではニューロン単位で解釈を試みられていたが、そのような解釈を困難にする猫の顔
車のフロント Olah+, Zoom In: An Introduction to Circuits (Distill 2020)

19 基本概念重ね合わせ (Superposition) ⚫ ほぼ直交する基底を利用することで、モデルが表現空間の次元数よりも多くの特徴量を表現する ⚫ Sparse Autoencoder
(SAE)を使って単義的な特徴量方向に分解（後述） ≈ Elhage+, Toy Models of Superposition (Transformer Circuits Thread 2022)

20 手法 ― 観察的手法と介入的手法 ―

21 手法の分類モデルの活性値や重みを変更せずに分析モデルの活性値や重みを変更することで、主に因果性を分析

23 観察的手法｜特徴量の可視化 Max Activating Samples 特定のニューロン/方向を最も活性化させる実データサンプルを収集 Activation Maximization 特定のニューロン/方向を最も活性化させる入力パターンを最適化実データサンプル
最適化「野球orストライプ」ニューロン「犬の顔or鼻」ニューロン「雲orふわふわ」ニューロン「建物or空」ニューロン Olah+, Feature Visualization (Distill 2017)

24 観察的手法｜内部表現の可視化 Logit Lens ⚫ Transformerの残差ストリームに Unembedding行列を適用 ⚫ 内部表現を語彙としてデコード ⚫
各層での予測の推移を観察 interpreting GPT: the logit lens (2020)

25 観察的手法｜内部表現の分解 Sparse Autoencoder (SAE) 重ね合わせによって密になっている内部表現を、より高次元で疎な（単義的な）特徴量基底に変換 Encoder (MLP) Decoder
(MLP) SAE 疎になるように正則化（L1, TopK など）

26 観察的手法｜内部表現の分解 Sparse Autoencoder (SAE) LLMにSAEを適用することで人間が解釈可能な特徴量が得られる脳科学ジェンダーバイアスコードエラー Templeton+,
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet (Transformer Circuits Thread 2024)

28 介入的手法 Activation Patching ⚫ モデルの推論途中で特定の活性値を別の値に置き換え（Patch）、出力への因果的効果を分析 ⚫ 例1：LLMの推論時の内部表現にSAEで得られた特徴量ベクトルを加える https://www.neuronpedia.org/gemma-2-9b-it/steer?saved=cmavb787h000rze0rlnpbxhqz
通常「猫」特徴量を加えたあと

29 介入的手法 Activation Patching ⚫ モデルの推論途中で特定の活性値を別の値に置き換え（Patch）、出力への因果的効果を分析 ⚫ 例2：LLMの推論時の内部表現を、別の反事実的な文脈の内部表現に置換 →
出力の変化から回路を特定 https://nnsight.net/notebooks/tutorials/activation_patching/

30 介入的手法 Path Patching ⚫ ノード（内部表現）ではなくエッジ（経路）を流れる値を置き換える Wang+, Interpretability in the
Wild: a Circuit for Indirect Object Identification in GPT-2 small (ICLR 2023)

31 応用例 ― AI安全性の向上と効率的なモデル設計 ―

AI安全性の向上 ⚫ MIツールでモデル内部の意図しない挙動を早期検出 ⚫ 例： ◦ センシティブ情報の特定・削除 ◦ 潜在的ミスアライメントを検出 Marks+,
Auditing language models for hidden objective (arXiv2023) ◦ 学習過程の新たな能力や挙動の形成を追跡し、予期しない振る舞いを未然に防ぐ 32 応用例

効率的なモデル設計 ⚫ MIによる動作原理の解明は、より効率的なモデル設計の提案に繋がる ⚫ 例: ◦ 状態空間モデルMamba：MI研究によりLLMの重要回路として特定されたInduction Headsの機能を設計に組み込んでいる ◦
単義的で解釈可能なモデルはより頑健になる Zhang+, Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness (ICLR 2025) 33 応用例 Gu+, Mamba: Linear-Time Sequence Modeling with Selective State Spaces (COLM 2024)

34 課題と限界

スケーラビリティの課題 ⚫ 小規模モデルで得られた回路分析が大規模モデルに通用しないケースも ⚫ パラメータ数増大に伴い、人手による回路分析や介入が困難に ⚫ 回路の自動検出や解釈を目指した研究が進展 35 課題と限界現状のMI研究の焦点
⚫ 多くは小規模モデルや限定的な単純タスクが対象 ⚫ 大規模モデルや実用的タスクへの適用は十分でない

36 課題と限界理論的限界 MIのようなボトムアップ手法で、複雑化するモデルを完全に理解できるかという根本的な疑問
MIで解明された部分未解明の内部メカニズム

37 課題と限界理論的限界の原因 ⚫ 人間のオントロジーとの乖離： ◦ モデルの性能が向上すると、モデル内部の概念構造（オントロジー）が人間の理解から乖離する可能性 ◦ AlphaZeroはチェスの概念を人間と異なる過程で獲得
McGrath+, Acquisition of chess knowledge in AlphaZero (PNAS 2025) ⚫ 動的相互作用： ◦ Hydra Effect: モデルの一部（例：Attention Head）を無効化しても別の部分がその機能を補完、自己修正する現象 McGrath+, The Hydra Effect: Emergent Self-repair in Language Model Computations (arXiv 2023)

38 展望

39 展望新しい技術パラダイムへの対応 ⚫ Vision-Language モデル ⚫ Reasoning モデル ⚫
強化学習 ⚫ ロボティクス ⚫ マルチエージェント

40 展望学際的な融合 ⚫ 神経科学： ◦ MIは元々神経科学のアプローチに着想を得ており、神経科学の知見を取り入れることで理論や手法を改善する ◦ 例：Marrの3レベル
Vilas+, Position: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience (ICML 2024) ⚫ 物理学： ◦ 物理学→MI：物理学的な視点からニューラルネットワークを解析 ◦ MI→物理学：物理現象を学習したニューラルネットワークを解析して物理法則を発見 Kitouni+, From Neurons to Neutrons: A Case Study in Mechanistic Interpretability (ICML 2024)

41 最後に新たな科学としての解釈可能性 ⚫ 従来の自然科学： ◦ 対象：自然現象 ◦ アプローチ：現象の背後にある法則の理解→現象の予測 ⚫
深層学習の科学（解釈可能性）： ◦ 対象：深層ニューラルネットワーク ◦ アプローチ：現象の予測→現象の背後にある法則の理解 ⚫ AIと/が科学する時代ではAIを科学することが重要になる

Mechanistic Interpretability：解釈可能性研究の新たな潮流

Mechanistic Interpretability：解釈可能性研究の新たな潮流

Other Decks in Research

Featured

Transcript