Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

説明可能AI:代表的手法と最近の動向 

Yuya Yoshikawa
December 13, 2023

 説明可能AI:代表的手法と最近の動向 

第21回ディペンダブルシステムワークショップ 招待講演のスライドです。

Yuya Yoshikawa

December 13, 2023
Tweet

More Decks by Yuya Yoshikawa

Other Decks in Research

Transcript

  1. ⾃⼰紹介 最近の研究トピック −説明可能AI (解釈可能な機械学習) −動作認識 2 吉川 友也 (よしかわ ゆうや)

    千葉⼯業⼤学 ⼈⼯知能・ソフトウェア技術研究センター 上席研究員 博⼠(⼯学) − 2015年 奈良先端科学技術⼤学院⼤学
  2. 前提知識:ニューラルネットを⽤いた教師あり学習 4 ⼊⼒ ! モデル #! 出⼒ " 年収予測の例 勤続

    年数 会社 規模 東京 在住 5 325 1 年収 562.6 ゴール … !を与えたら"を出⼒してくれるモデル#! の構築
  3. 前提知識:ニューラルネットを⽤いた教師あり学習 5 ⼊⼒ ! モデル #! 出⼒ " 画像分類の例 0

    1 0 0 イヌ ネコ ⾃動⾞ ⼈ ゴール … !を与えたら"を出⼒してくれるモデル#! の構築
  4. 前提知識:ニューラルネットを⽤いた教師あり学習 6 教師あり学習 … ⼊⼒ ! モデル #! 出⼒ "

    !から"を出⼒できるようにモデル#のパラメータ&を 多数の(!, ")ペアを⽤いて学習 回帰問題 ("が連続値)の場合: &∗ = argmin! 1 #,% ∈' " − #! ! ( を確率的勾配降下法で求める ゴール … !を与えたら"を出⼒してくれるモデル#! の構築
  5. 前提知識:ニューラルネットを⽤いた教師あり学習 7 ⼊⼒ ! モデル #! 出⼒ " モデル#! …

    (深層)ニューラルネット 例: 多層パーセプトロン ⼊⼒ 出⼒ パラメータ!はネットワークの 各辺に付く ⾮線形変換を何回も繰り返す ゴール … !を与えたら"を出⼒してくれるモデル#! の構築
  6. ⾼い予測精度を出すために機械学習モデルはどんどん複雑化 8 0 5 10 15 20 25 30 35

    40 2018 2019 2020 2021 2022 2023 パープレキシティ (WikiText-103) ⼤規模⾔語モデルの予測性能 (低い⽅が良い) https://paperswithcode.com/sota/language-modelling-on-wikitext-103 から作成 (ニューラルネット)
  7. ⾼い予測精度を出すために機械学習モデルはどんどん複雑化 9 0.01 0.1 1 10 100 1000 2018 2019

    2020 2021 2022 モデルサイズ (x109) ⼤規模⾔語モデルのサイズ https://huggingface.co/blog/large-language-models から作成 (ニューラルネット)
  8. AIの透明性と解釈性に関する社会からの要求 11 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判 できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰ を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則 内閣府 ⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則

    2016年 4⽉ G7⾹川 ⼈⼯知能の開発原則の提唱 AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉ 「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と その結果に対する説明責任(アカウンタビリティ)が適切に確保されると共に、 技術に対する信頼性(Trust)が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年以降の発効?) 2021年 4⽉ ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し かつそれを適切に使⽤することができるようにするため、当該システムの動作 が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと する。
  9. AIの透明性と解釈性に関する社会からの要求 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判 できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰ を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則 内閣府 ⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則 G7⾹川

    ⼈⼯知能の開発原則の提唱 AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉ 「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と その結果に対する説明責任(アカ ウンタビリティ)が適切に確保されると共に、 技術に対する信頼性(Trust)が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年施⾏予定) 2021年 4⽉ ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し かつそれを適切に使⽤することができるようにするため、当該システムの動作 が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと する。 2016年 4⽉ 解釈可能な機械学習 または AIの透明性や解釈性の確保のための機械学習技術を と呼びます。 12 説明可能AI (XAI)
  10. 事後説明 Post-hoc explanation 後付けの説明器が予測に対して 特徴やデータの影響を説明 13 XAIによる説明の分類 ⼤域説明 Global/model explanation

    学習した予測モデル全体に対す る特徴やデータの影響を説明 局所説明 Local explanation 個々の予測結果に対して 特徴やデータの影響を説明 ⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が予測に対して 特徴やデータの影響を説明
  11. 局所説明⼿法の分類 [恵⽊ 2020] 例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース 予測に効いた特徴を⽤いて説明 “A⽒と類似の申込みで返済が 滞った事例がある” 事例型説明

    類似した訓練事例を⽰して説明 “A⽒の会社の信⽤度が低かった” 知識型説明 外部知識を利⽤して説明 “もしA⽒の年収が〇〇円以上 であれば審査は通っていた” 反実型説明 予測を変えるために必要なことを説明 14 “A⽒の職業が〇〇だから” 因⼦型説明 予測に効いた特徴を⽤いて説明
  12. what is the temperature at the center of the earth

    データ種別、因⼦型の局所説明の具体例 表形式データの場合 画像データの場合 テキストデータの場合 15 ⾝⻑ 体重 東京 出⾝ 172 63 1 ⼊⼒ ) ∈ ℝ! ⾝ ⻑ 体 重 東 京 出 ⾝ 予測結果に対する 各特徴の貢献度を説明 貢献度 + , ∈ ℝ! ⾝⻑ 体重 東京 出⾝ 0.8 0.6 -0.1 貢献度 or ⼊⼒ ) ∈ ℝ"×$×% 予測結果に対する 各ピクセルの貢献度を説明 貢献度 + , ∈ ℝ$×% ⼊⼒ ) = [単語1, 単語2, ⋯ , 単語2] 予測結果に対する 各単語の貢献度を説明 what is the temperature at the center of the earth 貢献度 + , ∈ ℝ!
  13. 予測精度が⾼くても、予測結果の説明は重要 AI利⽤者視点 16 ① AIの結果に根拠が付き 信⽤できるようになる ② ⾼リスクな意思決定が 必要な場⾯でもAIを利⽤ しやすくなる

    AI開発者視点 ③ バグの発⾒や モデルの改善に繋がる ④ 不公平さをもたらす バイアスの発⾒に繋がる • 推薦システム • 検索システム • 医療画像診断 • ⾃動運転 • セキュリティ • 前処理や途中の計算で 発⽣するバグ • 不必要な特徴の削除 • 職業を当てる画像認識で 性別や⼈種を表す領域に 注⽬していないか
  14. 事後説明器 (post-hoc explainer) 予測モデルのアクセス可能性の仮定は様々 17 ⾝⻑ 体重 東京 出⾝ 172

    63 1 性別 確率 男性 0.79 ⼥性 0.21 ⼊⼒ ) 予測に対して後付けで特徴の貢献度を説明 予測モデル 4(6) #(%; ') 事後説明器 予測確率 8 9 貢献度 + , ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する ※予測モデルは学習済み Forward計算 のみ可 中間状態 が得られる 中間状態の微分 が得られる アクセス可能性の仮定の強さ 性別分類の例
  15. 事後説明器 (post-hoc explainer) ⾝⻑ 体重 東京 出⾝ 172 63 1

    性別 確率 男性 0.79 ⼥性 0.21 4(6) #(%; ') 事後説明器 予測確率 8 9 貢献度 + , ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する • 説明のために予測モデル を変更する必要がない メリット • 説明を⽣成するために 推論時に学習を必要とする 場合があり、計算量が⼤きい デメリット 18 予測モデル 予測に対して後付けで特徴の貢献度を説明 ※予測モデルは学習済み ⼊⼒ ) 性別分類の例
  16. 摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 19 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から 線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 ⾝⻑

    体重 東京 出⾝ 172 63 1 ⼊⼒ ) ⾝⻑ 体重 東京 168 63 1 摂動させた⼊⼒ : )& 3; = [0 1 1] 3< = [1 0 0] ⾝⻑ 体重 東京 172 45 0 摂動させた⼊⼒ : )' … 摂動させた⼊⼒を!個⽣成 ⼆値ベクトル=を>個⽣成 =で0を持つ特徴を 別の値に置き換え … 摂動させた⼊⼒に対する予測モデルの出⼒を得る 4(6) ) %! ) %" … … … 性別 確率 男性 0.59 ⼥性 0.41 予測確率 : 9& 性別 確率 男性 0.70 ⼥性 0.30 予測確率 : 9' … ステップ① ステップ② 予測モデル [Ribeiro+ 2016]
  17. 摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 20 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から 線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 "から予測確率を当てる重み付き線形回帰を学習

    6∗ = argmin? 1 @A; < 7# 8 9@ : ;@ − 63@ ( ( + = 6 ( ( ※ ?はクラス数×特徴の数のサイズ 元の⼊⼒)と摂動⼊⼒8 )(の類似度 ← #∗の$⾏⽬がクラス$への特徴量の貢献度となる 摂動させた⼊⼒に対する予測モデルの出⼒を得る 4(6) ) %! ) %" … … … 性別 確率 男性 0.59 ⼥性 0.41 予測確率 : 9& 性別 確率 男性 0.70 ⼥性 0.30 予測確率 : 9' … ステップ② ステップ③ 予測モデル [Ribeiro+ 2016] クラス! 特徴量 #∗
  18. 勾配に基づく事後説明器: Integrated Gradients 22 特徴に関する予測モデルの微分 • 出⼒が特徴の値にどの程度敏感に反応するかを評価可能 >#(9) >!B ノイズを多く含む説明になりやすい

    ? !; # B = (!B − ̅ !B ) B C ; ># C 9 + D(9 − C 9) >!B ED 特徴量%の貢献度: ベースライン⼊⼒ C 9 から⼊⼒ 9 までの直線上で微分の積分を計算 Integrated Gradients * % と % の間を補間 ※ 実際には積分をリーマン和で近似計算 勾配をそのまま⽤いる問題点 [Sundararajan+ 2017]
  19. 事後説明器による説明の⽐較 ~計算時間~ 24 (Xpliqueを使⽤) 事後説明器 1画像あたりの 平均計算時間(秒) ハイパーパラメータ LIME 3.91

    摂動させた⼊⼒の数: 2000 Integrated Grad. 3.42 近似グリッド点の数: 80 GradCAM 0.25 RISE 1.35 マスクの数: 2000 ハイパーパラメータ次第で計算時間は変わる LIME, Integrated Grad., RISEは、計算時間と説明の質がトレードオフ 実験環境: Google Collaboratory (GPU: Tesla T4)
  20. ⾃⼰説明可能な予測モデル (self-explainable models) • 予測に対して忠実な説明を ⽣成しやすい • 事後説明器に⽐べると推論 時に速い 27

    予測モデル⾃⾝が特徴の貢献度を説明できる ⾝⻑ 体重 東京 出⾝ 172 63 1 性別 確率 男性 0.79 ⼥性 0.21 特徴量 ) ⾃⼰説明可能な 予測モデル &(() 予測確率 8 9 貢献度 + , ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する 通常の教師データを⽤いて 予測モデルを学習 メリット • 事後説明器とは異なり 予測モデルを変えるので 予測精度が悪くなる可能性 がある デメリット 推論フロー
  21. スパースな説明を可能にする⾃⼰説明可能な予測モデル 28 [Yoshikawa+ 2022] *(+) 貢献度変換器 +(! % ) ,個の特徴のみを

    選択する 微分可能な特徴選択器 ⼊⼒% 貢献度を可視化して 予測に効いた領域を説明 スパースな貢献度 " = F & 9 D 9 ⼊⼒と貢献度の内積で予測値を計算 スパースな貢献度 密な貢献度
  22. メリット デメリット 説明による正則化付き予測モデル最適化 31 事後説明器による説明の評価スコアが良くなるように予測モデルを学習 性別 確率 男性 0.79 ⼥性

    0.21 ⼊⼒ ) 予測確率 8 9 貢献度 + , ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する ⾝⻑ 体重 東京 出⾝ 172 63 1 予測モデル 4(6) #(%; ') 事後説明器 「機能」に根づいた評価 に基づく正則化 ▷ 忠実度 ▷ スパース度 など • 予測モデルや事後説明器の アーキテクチャを変更せず 説明を改善可能 • 予測モデルを変えるので 予測精度が悪くなる可能性 • 学習時の計算量増⼤ 推論フロー
  23. 説明の教師データを利⽤した予測モデル最適化 34 性別 確率 男性 0.79 ⼥性 0.21 ⼊⼒ )

    予測確率 8 9 貢献度 + , ⾝⻑ 体重 出⾝ 0.8 0.6 -0.1 「性別=男性」に対する 予測モデル 4(6) #(%; ') 勾配ベース 説明器 予測ロス ℒ(F, 8 9) Backward ! ∈ 0,1 - … ,番⽬の特徴が必要(-" = 0)か、不必要(-" = 1)か 説明の教師データ min G ℒ ", H " + D 1 H IH > >!H log # ! % ( 解く問題: 勾配によるI番⽬の特徴の貢献度 説明の教師データによる ロス $ % ! &! ' '(! log , ( " # 学習フロー [Ross+ 2017] 不必要な特徴の貢献度が低くなる = 予測モデルがその特徴を使わなくなる
  24. ⽣成AIにおけるXAI利⽤の例 • ⽣成物に対する特徴の貢献を説明 (因⼦型説明) − ⼈が期待したとおりに⽣成できているかの確認や、 効果的なプロンプトになっているかの分析等に使える • ⽣成物に貢献する訓練事例を説明 (事例型説明)

    − ⽣成画像が著作権侵害していないかの確認や、 ⽣成⽂が参考にした⽂章の確認等に使える • ⼈間の創作物か、AIによる⽣成物かの判別における 根拠の説明 • 説明を利⽤して⽣成AIの出⼒を改善 37
  25. 単語が⽣成画像のどの領域に対応付くかを可視化 38 [Hertz+ 2022] • ⼊⼒⽂の意図をAIが汲み取れているかを確認 • 説明を編集して⼈間の思い通りの場所に物体を配置 ⼊⼒⽂ a

    furry bear watching a bird 画像⽣成AI 各単語が⽣成された画像にどのように影響を与えているかの説明 説明の ⽤途 出⼒ &(()
  26. 本物の画像かAI⽣成画像かを分類し、その根拠を可視化 40 “A skier is overlooking the beautiful white snow

    covered landscape” 本物の画像 (キャプション付き) ⽣成 AI⽣成画像 (Stable Diffusion) 訓練データ として利⽤ 4(6) ⼊⼒画像が本物かAI⽣成画像かを分類する分類器を構築 本物 or AI⽣成? [Pondoc+ 2023]
  27. ⼤規模⾔語モデル(LLM)の出⼒を説明で改善させる 42 In-context Learning LLMがタスクを解く前に、少数の回答例や考え⽅のヒントをプロンプト として与え、LLMの出⼒をユーザの意図する⽅向へ導く 例: 感情分類における1ショットプロンプト Review: この映画はつまらん.

    Sentiment: negative. Review: この映画⼤好き. Sentiment: Positive. LLM [Satyapriya+ 2023] (1つの回答例をプロンプトとして与える) どんなプロンプトを与えれば出⼒が改善するかが盛んに研究されている
  28. まとめ • XAIが重要視される背景、XAIの分類 • 代表的な説明⼿法: LIME, Integrated Gradients • XAI研究の発展の動向

    − 複雑な予測モデルが⾃⾝の予測結果を説明できる − 説明の評価尺度で最適化する − ⼈が望む説明を出⼒できるようにする • ⽣成AIにおけるXAI − ⽣成物に対する特徴の貢献を説明 − ⽣成物に貢献する訓練事例を説明 − ⼈間の創作物か、AIによる⽣成物かの判別における根拠の説明 − 説明を利⽤して⽣成AIの出⼒を改善 44
  29. 参考⽂献 1/2 • [恵⽊ 2020] 恵⽊正史. “XAI(eXplainable AI)技術の研究動向.” ⽇本セキュリティ・マネジメント学会誌, vol.

    34, no. 1, 2020, https://www.jstage.jst.go.jp/article/jssmjournal/34/1/34_20/_pdf/-char/ja. • [Ribeiro+ 2016] Ribeiro, Marco Tulio, et al. “ʻWhy Should I Trust You?ʼ: Explaining the Predictions of Any Classifier.” arXiv:1602.04938 [cs, Stat], Feb. 2016. arXiv.org, http://arxiv.org/abs/1602.04938. • [Sundararajan+ 2017] Sundararajan, Mukund, et al. “Axiomatic Attribution for Deep Networks.” arXiv [cs.LG], 4 Mar. 2017, http://arxiv.org/abs/1703.01365. arXiv. • [Doshi-Velez+ 2017] Doshi-Velez, Finale, and Been Kim. “Towards A Rigorous Science of Interpretable Machine Learning.” arXiv [stat.ML], 28 Feb. 2017, http://arxiv.org/abs/1702.08608. arXiv. • [Yoshikawa+ 2022] Yoshikawa, Yuya, and Tomoharu Iwata. “Neural Generators of Sparse Local Linear Models for Achieving Both Accuracy and Interpretability.” An International Journal on Information Fusion, vol. 81, May 2022, pp. 116‒28. • [Yakura+ 2019] Yakura, Hiromu, et al. “Neural Malware Analysis with Attention Mechanism.” Computers & Security, vol. 87, Nov. 2019, p. 101592. • [Yoshikawa+ 2023] Yoshikawa, Yuya, and Tomoharu Iwata. “Explanation-Based Training with Differentiable Insertion/Deletion Metric-Aware Regularizers.” arXiv [cs.LG], Oct. 2023, https://arxiv.org/abs/2310.12553. arXiv. 45
  30. 参考⽂献 2/2 • [Alvarez+ 2018] Alvarez Melis, David, and Tommi

    Jaakkola. “Towards Robust Interpretability with Self- Explaining Neural Networks.” Advances in Neural Information Processing Systems, vol. 31, 2018, https://proceedings.neurips.cc/paper/2018/hash/3e9f0fc9b2f89e043bc6233994dfcf76-Abstract.html. • [Ross+ 2017] Ross, Andrew Slavin, et al. “Right for the Right Reasons: Training Differentiable Models by Constraining Their Explanations.” Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, International Joint Conferences on Artificial Intelligence Organization, 2017, https://doi.org/10.24963/ijcai.2017/371. • [Hertz+ 2022] Hertz, Amir, et al. “Prompt-to-Prompt Image Editing with Cross Attention Control.” arXiv [cs.CV], 2 Aug. 2022, http://arxiv.org/abs/2208.01626. arXiv. • [Georgiev+ 2023] Georgiev, Kristian, et al. The Journey, Not the Destination: How Data Guides Diffusion Models. 23 June 2023, https://openreview.net/pdf?id=9hK9NbUAex. • [Park+ 2023] Park, Sung Min, et al. “TRAK: Attributing Model Behavior at Scale.” arXiv [stat.ML], 24 Mar. 2023, http://arxiv.org/abs/2303.14186. arXiv. • [Pondoc+ 2023] Pondoc, Christopher, et al. Seeing Through the Facade: Understanding the Realism, Expressivity, and Limitations of Diffusion Models. June 2023, https://openreview.net/forum?id=wOC0BELg7g. • [Satyapriya+ 2023] Satyapriya, et al. “Post Hoc Explanations of Language Models Can Improve Language Models.” arXiv [cs.CL], 19 May 2023, http://arxiv.org/abs/2305.11426. arXiv. 46
  31. 47