Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Mechanistic Interpretability:解釈可能性研究の新たな潮流

Mechanistic Interpretability:解釈可能性研究の新たな潮流

2025年度人工知能学会全国大会での発表資料です。

Avatar for Koshiro Aoki

Koshiro Aoki

June 01, 2025
Tweet

Other Decks in Research

Transcript

  1. Mechanistic Interpretability: 解釈可能性研究の新たな潮流 青木 洸士郎1 高槻 瞭大2,3 峰岸 剛基3 1早稲田大学

    2一般社団法人AIアライメントネットワーク 3東京大学 人工知能学会全国大会 (第39回) オーガナイズドセッション Mechanistic Interpretability 2025年5月29日
  2. 日本の 首都は 東京 4 Mechanistic Interpretability とは? わからないもの 入力から出力までを体系的に記述した アルゴリズム

    def get_capital(country): capitals = { "Japan": "Tokyo", "France": "Paris", … } capital = capitals[country] return capital ? 実装レベル アルゴリズムレベル
  3. 5 Mechanistic Interpretability とは? def get_capital(country): capitals = { "Japan":

    "Tokyo", "France": "Paris", … } capital = capitals[country] return capital Mechanistic Interpretability 日本の 首都は 東京 実装レベル アルゴリズムレベル わからないもの 入力から出力までを体系的に記述した アルゴリズム
  4. 6 Mechanistic Interpretability とは? コンピュータプログラムとのアナロジー def get_capital(country): capitals = {

    "Japan": "Tokyo", "France": "Paris", … } capital = capitals[country] return capital リバース エンジニアリング Mechanistic Interpretability 日本の 首都は 東京 1001100 1101001 1000001 Tokyo Japan 実装レベル 実装レベル アルゴリズムレベル
  5. 7 MIはどのようにして生まれた? 黎明期 (2020-2021年) ⚫ OpenAIの研究者らによるブログ「Thread: Circuits」を通じて公に ⚫ 主にコンピュータビジョン分野 (CNN)

    での研究 ◦ フィルタやニューロンが検出する 模様、エッジ、パーツの可視化 ◦ 目的:最終出力に至る過程を ボトムアップに把握 Olah+, Zoom In: An Introduction to Circuits (Distill 2020)
  6. 8 MIはどのようにして生まれた? LLMの台頭と研究対象の変化 ⚫ 研 究 対 象 が 自

    然言 語 処 理 、 特 に TransformerベースのLLMへ移行 ⚫ Anthropicの研究者らによるブログ 「Transformer Circuits Thread」 が開始 NLPにおける解釈可能性の論文数 Chiruzzo+, On Behalf of the Stakeholders: Trends in NLP Model Interpretability in the Era of LLMs (NAACL2025)
  7. 10 他の解釈可能性との違い モデル 特徴量1 特徴量2 特徴量3 予測 Behavioral Interpretability &

    Attribution Methods ⚫ SHAP, LIME, Saliency Map, Integrated Gradients など ⚫ モデルをブラックボックスとして扱い、入出力の対応関係に注目 ⚫ モデル内部のアルゴリズムはわからない
  8. 11 他の解釈可能性との違い Concept-Based Interpretability ⚫ Probing, Concept Activation Vectors など

    ⚫ モデル内部で抽象概念がどう表現されるかを トップダウンに調査する ⚫ 概念を操作したりもする(Representation Engineering) ⚫ 因果構造やメカニズムには言及しない 事前に定義された概念
  9. 12 他の解釈可能性との違い MIたらしめるもの ⚫ 技術的側面: ◦ モデル内部の因果構造やメカニズムをボトムアップに解明することが 中心的理念 ◦ ただし、方法論の一部としてMIも既存手法を用いることがある

    ⚫ 文化的側面: ◦ AIアラインメントの文脈で語られることが多い ◦ 研究成果がブログやオープンなプラットフォームで共有されることが 多い
  10. 14 基本概念 特徴量 (Features) ⚫ モデルの入力に内在するパターン ⚫ モデル解釈の基本単位 線形表現仮説 ⚫

    特 徴 量 は モ デ ル の 表 現 空 間 の 「方向」に対応するという仮説 ⚫ 議論の余地あり Park+, The Linear Representation Hypothesis and the Geometry of Large Language Models (NeurIPS 2023) 犬 dog
  11. 19 基本概念 重ね合わせ (Superposition) ⚫ ほぼ直交する基底を利用することで、モデルが表現空間の次元数よりも多 くの特徴量を表現する ⚫ Sparse Autoencoder

    (SAE)を使って単義的な特徴量方向に分解(後述) ≈ Elhage+, Toy Models of Superposition (Transformer Circuits Thread 2022)
  12. 23 観察的手法|特徴量の可視化 Max Activating Samples 特定のニューロン/方向を最も活性化させる実データサンプルを収集 Activation Maximization 特定のニューロン/方向を最も活性化させる入力パターンを最適化 実データサンプル

    最適化 「野球orストライプ」 ニューロン 「犬の顔or鼻」 ニューロン 「雲orふわふわ」 ニューロン 「建物or空」 ニューロン Olah+, Feature Visualization (Distill 2017)
  13. AI安全性の向上 ⚫ MIツールでモデル内部の意図しない挙動を早期検出 ⚫ 例: ◦ センシティブ情報の特定・削除 ◦ 潜在的ミスアライメントを検出 Marks+,

    Auditing language models for hidden objective (arXiv2023) ◦ 学習過程の新たな能力や挙動の形成を追跡し、予期しない振る舞いを 未然に防ぐ 32 応用例
  14. 効率的なモデル設計 ⚫ MIによる動作原理の解明は、より効率的なモデル設計の提案に繋がる ⚫ 例: ◦ 状態空間モデルMamba:MI研究によりLLMの重要回路として特定さ れたInduction Headsの機能を設計に組み込んでいる ◦

    単義的で解釈可能なモデルはより頑健になる Zhang+, Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness (ICLR 2025) 33 応用例 Gu+, Mamba: Linear-Time Sequence Modeling with Selective State Spaces (COLM 2024)
  15. 37 課題と限界 理論的限界の原因 ⚫ 人間のオントロジーとの乖離: ◦ モデルの性能が向上すると、モデル内部の概念構造(オントロジー) が人間の理解から乖離する可能性 ◦ AlphaZeroはチェスの概念を人間と異なる過程で獲得

    McGrath+, Acquisition of chess knowledge in AlphaZero (PNAS 2025) ⚫ 動的相互作用: ◦ Hydra Effect: モデルの一部(例:Attention Head)を無効化しても 別の部分がその機能を補完、自己修正する現象 McGrath+, The Hydra Effect: Emergent Self-repair in Language Model Computations (arXiv 2023)
  16. 40 展望 学際的な融合 ⚫ 神経科学: ◦ MIは元々神経科学のアプローチに着想を得ており、神経科学の知見を 取り入れることで理論や手法を改善する ◦ 例:Marrの3レベル

    Vilas+, Position: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience (ICML 2024) ⚫ 物理学: ◦ 物理学→MI:物理学的な視点からニューラルネットワークを解析 ◦ MI→物理学:物理現象を学習したニューラルネットワークを解析して 物理法則を発見 Kitouni+, From Neurons to Neutrons: A Case Study in Mechanistic Interpretability (ICML 2024)
  17. 41 最後に 新たな科学としての解釈可能性 ⚫ 従来の自然科学: ◦ 対象:自然現象 ◦ アプローチ:現象の背後にある法則の理解→現象の予測 ⚫

    深層学習の科学(解釈可能性): ◦ 対象:深層ニューラルネットワーク ◦ アプローチ:現象の予測→現象の背後にある法則の理解 ⚫ AIと/が科学する時代ではAIを科学することが重要になる