説明可能AI：代表的手法と最近の動向

説明可能AI：代表的⼿法と最近の動向千葉⼯業⼤学⼈⼯知能・ソフトウェア技術研究センター吉川友也 https://yuya-y.com 第21回ディペンダブルシステムワークショップ

⾃⼰紹介最近の研究トピック −説明可能AI (解釈可能な機械学習) −動作認識 2 吉川友也 (よしかわゆうや)
千葉⼯業⼤学⼈⼯知能・ソフトウェア技術研究センター上席研究員博⼠（⼯学） − 2015年奈良先端科学技術⼤学院⼤学

前提知識：ニューラルネットを⽤いた教師あり学習 3 ゴール … !を与えたら"を出⼒してくれるモデル#! の構築⼊⼒ ! モデル #!
出⼒ "

前提知識：ニューラルネットを⽤いた教師あり学習 4 ⼊⼒ ! モデル #! 出⼒ " 年収予測の例勤続
年数会社規模東京在住 5 325 1 年収 562.6 ゴール … !を与えたら"を出⼒してくれるモデル#! の構築

前提知識：ニューラルネットを⽤いた教師あり学習 5 ⼊⼒ ! モデル #! 出⼒ " 画像分類の例 0
1 0 0 イヌネコ⾃動⾞⼈ゴール … !を与えたら"を出⼒してくれるモデル#! の構築

前提知識：ニューラルネットを⽤いた教師あり学習 6 教師あり学習 … ⼊⼒ ! モデル #! 出⼒ "
!から"を出⼒できるようにモデル#のパラメータ&を多数の(!, ")ペアを⽤いて学習回帰問題 ("が連続値)の場合： &∗ = argmin! 1 #,% ∈' " − #! ! ( を確率的勾配降下法で求めるゴール … !を与えたら"を出⼒してくれるモデル#! の構築

前提知識：ニューラルネットを⽤いた教師あり学習 7 ⼊⼒ ! モデル #! 出⼒ " モデル#! …
(深層)ニューラルネット例: 多層パーセプトロン⼊⼒出⼒パラメータ!はネットワークの各辺に付く⾮線形変換を何回も繰り返すゴール … !を与えたら"を出⼒してくれるモデル#! の構築

⾼い予測精度を出すために機械学習モデルはどんどん複雑化 8 0 5 10 15 20 25 30 35
40 2018 2019 2020 2021 2022 2023 パープレキシティ (WikiText-103) ⼤規模⾔語モデルの予測性能 (低い⽅が良い) https://paperswithcode.com/sota/language-modelling-on-wikitext-103 から作成 (ニューラルネット)

⾼い予測精度を出すために機械学習モデルはどんどん複雑化 9 0.01 0.1 1 10 100 1000 2018 2019
2020 2021 2022 モデルサイズ (x109) ⼤規模⾔語モデルのサイズ https://huggingface.co/blog/large-language-models から作成 (ニューラルネット)

⼀般に、複雑なモデルほど解釈しにくい 10 複雑度 (精度) 解釈性の良さ深層ニューラルネットランダムフォレスト SVM "近傍法決定⽊
線形回帰分類ルール年齢<20 Yes No ※ 解釈とは … モデルの振る舞いを理解すること

AIの透明性と解釈性に関する社会からの要求 11 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則内閣府⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則
2016年 4⽉ G7⾹川⼈⼯知能の開発原則の提唱ＡＩネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定とその結果に対する説明責任（アカウンタビリティ）が適切に確保されると共に、技術に対する信頼性（Trust）が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年以降の発効？) 2021年 4⽉ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈しかつそれを適切に使⽤することができるようにするため、当該システムの動作が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものとする。

AIの透明性と解釈性に関する社会からの要求 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則内閣府⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則 G7⾹川
⼈⼯知能の開発原則の提唱ＡＩネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定とその結果に対する説明責任（アカウンタビリティ）が適切に確保されると共に、技術に対する信頼性（Trust）が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年施⾏予定) 2021年 4⽉ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈しかつそれを適切に使⽤することができるようにするため、当該システムの動作が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものとする。 2016年 4⽉解釈可能な機械学習または AIの透明性や解釈性の確保のための機械学習技術をと呼びます。 12 説明可能AI (XAI)

事後説明 Post-hoc explanation 後付けの説明器が予測に対して特徴やデータの影響を説明 13 XAIによる説明の分類⼤域説明 Global/model explanation
学習した予測モデル全体に対する特徴やデータの影響を説明局所説明 Local explanation 個々の予測結果に対して特徴やデータの影響を説明⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が予測に対して特徴やデータの影響を説明

局所説明⼿法の分類 [恵⽊ 2020] 例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース予測に効いた特徴を⽤いて説明 “A⽒と類似の申込みで返済が滞った事例がある” 事例型説明
類似した訓練事例を⽰して説明 “A⽒の会社の信⽤度が低かった” 知識型説明外部知識を利⽤して説明 “もしA⽒の年収が〇〇円以上であれば審査は通っていた” 反実型説明予測を変えるために必要なことを説明 14 “A⽒の職業が〇〇だから” 因⼦型説明予測に効いた特徴を⽤いて説明

what is the temperature at the center of the earth
データ種別、因⼦型の局所説明の具体例表形式データの場合画像データの場合テキストデータの場合 15 ⾝⻑体重東京出⾝ 172 63 1 ⼊⼒ ) ∈ ℝ! ⾝⻑体重東京出⾝予測結果に対する各特徴の貢献度を説明貢献度 + , ∈ ℝ! ⾝⻑体重東京出⾝ 0.8 0.6 -0.1 貢献度 or ⼊⼒ ) ∈ ℝ"×$×% 予測結果に対する各ピクセルの貢献度を説明貢献度 + , ∈ ℝ$×% ⼊⼒ ) = [単語1, 単語2, ⋯ , 単語2] 予測結果に対する各単語の貢献度を説明 what is the temperature at the center of the earth 貢献度 + , ∈ ℝ!

予測精度が⾼くても、予測結果の説明は重要 AI利⽤者視点 16 ① AIの結果に根拠が付き信⽤できるようになる ② ⾼リスクな意思決定が必要な場⾯でもAIを利⽤しやすくなる
AI開発者視点 ③ バグの発⾒やモデルの改善に繋がる ④ 不公平さをもたらすバイアスの発⾒に繋がる • 推薦システム • 検索システム • 医療画像診断 • ⾃動運転 • セキュリティ • 前処理や途中の計算で発⽣するバグ • 不必要な特徴の削除 • 職業を当てる画像認識で性別や⼈種を表す領域に注⽬していないか

事後説明器 (post-hoc explainer) 予測モデルのアクセス可能性の仮定は様々 17 ⾝⻑体重東京出⾝ 172
63 1 性別確率男性 0.79 ⼥性 0.21 ⼊⼒ ) 予測に対して後付けで特徴の貢献度を説明予測モデル 4(6) #(%; ') 事後説明器予測確率 8 9 貢献度 + , ⾝⻑体重東京 0.8 0.6 -0.1 「性別＝男性」に対する ※予測モデルは学習済み Forward計算のみ可中間状態が得られる中間状態の微分が得られるアクセス可能性の仮定の強さ性別分類の例

事後説明器 (post-hoc explainer) ⾝⻑体重東京出⾝ 172 63 1
性別確率男性 0.79 ⼥性 0.21 4(6) #(%; ') 事後説明器予測確率 8 9 貢献度 + , ⾝⻑体重東京 0.8 0.6 -0.1 「性別＝男性」に対する • 説明のために予測モデルを変更する必要がないメリット • 説明を⽣成するために推論時に学習を必要とする場合があり、計算量が⼤きいデメリット 18 予測モデル予測に対して後付けで特徴の貢献度を説明 ※予測モデルは学習済み⼊⼒ ) 性別分類の例

摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 19 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明⾝⻑
体重東京出⾝ 172 63 1 ⼊⼒ ) ⾝⻑体重東京 168 63 1 摂動させた⼊⼒ : )& 3; = [0 1 1] 3< = [1 0 0] ⾝⻑体重東京 172 45 0 摂動させた⼊⼒ : )' … 摂動させた⼊⼒を!個⽣成⼆値ベクトル=を>個⽣成 =で0を持つ特徴を別の値に置き換え … 摂動させた⼊⼒に対する予測モデルの出⼒を得る 4(6) ) %! ) %" … … … 性別確率男性 0.59 ⼥性 0.41 予測確率 : 9& 性別確率男性 0.70 ⼥性 0.30 予測確率 : 9' … ステップ① ステップ② 予測モデル [Ribeiro+ 2016]

摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 20 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 "から予測確率を当てる重み付き線形回帰を学習
6∗ = argmin? 1 @A; < 7# 8 9@ : ;@ − 63@ ( ( + = 6 ( ( ※ ?はクラス数×特徴の数のサイズ元の⼊⼒)と摂動⼊⼒8 )(の類似度 ← #∗の$⾏⽬がクラス$への特徴量の貢献度となる摂動させた⼊⼒に対する予測モデルの出⼒を得る 4(6) ) %! ) %" … … … 性別確率男性 0.59 ⼥性 0.41 予測確率 : 9& 性別確率男性 0.70 ⼥性 0.30 予測確率 : 9' … ステップ② ステップ③ 予測モデル [Ribeiro+ 2016] クラス! 特徴量 #∗

LIMEによる説明の例 21 図は https://github.com/marcotcr/lime から引⽤テキスト分類表形式データに対する分類画像分類

勾配に基づく事後説明器: Integrated Gradients 22 特徴に関する予測モデルの微分 • 出⼒が特徴の値にどの程度敏感に反応するかを評価可能 >#(9) >!B ノイズを多く含む説明になりやすい
? !; # B = (!B − ̅ !B ) B C ; ># C 9 + D(9 − C 9) >!B ED 特徴量%の貢献度: ベースライン⼊⼒ C 9 から⼊⼒ 9 までの直線上で微分の積分を計算 Integrated Gradients * % と % の間を補間 ※ 実際には積分をリーマン和で近似計算勾配をそのまま⽤いる問題点 [Sundararajan+ 2017]

事後説明器による説明の⽐較 ~可視化~ (Xpliqueを使⽤) ⼊⼒画像 Integrated Gradient GradCAM RISE LIME 解像度:
224x224

事後説明器による説明の⽐較 ~計算時間~ 24 (Xpliqueを使⽤) 事後説明器 1画像あたりの平均計算時間(秒) ハイパーパラメータ LIME 3.91
摂動させた⼊⼒の数: 2000 Integrated Grad. 3.42 近似グリッド点の数: 80 GradCAM 0.25 RISE 1.35 マスクの数: 2000 ハイパーパラメータ次第で計算時間は変わる LIME, Integrated Grad., RISEは、計算時間と説明の質がトレードオフ実験環境: Google Collaboratory (GPU: Tesla T4)

XAI研究の発展の動向 25 XAI 複雑な予測モデルが⾃⾝の予測結果を説明できる⼈が望む説明を出⼒できるようにする説明の評価尺度で最適化する
説明器の振る舞いをニューラルネットに学習させる

⾃⼰説明可能な予測モデル (self-explainable models) • 予測に対して忠実な説明を⽣成しやすい • 事後説明器に⽐べると推論時に速い 27
予測モデル⾃⾝が特徴の貢献度を説明できる⾝⻑体重東京出⾝ 172 63 1 性別確率男性 0.79 ⼥性 0.21 特徴量 ) ⾃⼰説明可能な予測モデル &(() 予測確率 8 9 貢献度 + , ⾝⻑体重東京 0.8 0.6 -0.1 「性別＝男性」に対する通常の教師データを⽤いて予測モデルを学習メリット • 事後説明器とは異なり予測モデルを変えるので予測精度が悪くなる可能性があるデメリット推論フロー

スパースな説明を可能にする⾃⼰説明可能な予測モデル 28 [Yoshikawa+ 2022] *(+) 貢献度変換器 +(! % ) ,個の特徴のみを
選択する微分可能な特徴選択器⼊⼒% 貢献度を可視化して予測に効いた領域を説明スパースな貢献度 " = F & 9 D 9 ⼊⼒と貢献度の内積で予測値を計算スパースな貢献度密な貢献度

因⼦型説明の応⽤例：マルウェア検出結果の根拠を説明 29 [Yakura+ 2019] ⾃⼰説明可能な予測モデル

メリットデメリット説明による正則化付き予測モデル最適化 31 事後説明器による説明の評価スコアが良くなるように予測モデルを学習性別確率男性 0.79 ⼥性
0.21 ⼊⼒ ) 予測確率 8 9 貢献度 + , ⾝⻑体重東京 0.8 0.6 -0.1 「性別＝男性」に対する⾝⻑体重東京出⾝ 172 63 1 予測モデル 4(6) #(%; ') 事後説明器「機能」に根づいた評価に基づく正則化 ▷ 忠実度 ▷ スパース度など • 予測モデルや事後説明器のアーキテクチャを変更せず説明を改善可能 • 予測モデルを変えるので予測精度が悪くなる可能性 • 学習時の計算量増⼤推論フロー

Deletionスコアに基づく説明ベース最適化 [Yoshikawa+ 2023] Deletionスコア貢献度で重要と評価された特徴を順番に削除したとき予測がどれくらい⼤きく変化するかを評価微分不可能なDeletionスコアを微分可能にして貢献度に対する正則化として利⽤⼊⼒ )
クラスの予測確率 8 9 貢献度 + , 予測モデル 4(6) #(%; ') 事後説明器推論フロー 32 (説明の忠実性評価尺度の⼀つ) Deletionスコアに基づく正則化学習後の貢献度 " #

XAI研究の発展の動向 33 XAI 複雑な予測モデルが⾃⾝の予測結果を説明できる⼈が望む説明を出⼒できるようにする説明の評価尺度に最適化する

説明の教師データを利⽤した予測モデル最適化 34 性別確率男性 0.79 ⼥性 0.21 ⼊⼒ )
予測確率 8 9 貢献度 + , ⾝⻑体重出⾝ 0.8 0.6 -0.1 「性別＝男性」に対する予測モデル 4(6) #(%; ') 勾配ベース説明器予測ロス ℒ(F, 8 9) Backward ! ∈ 0,1 - … ,番⽬の特徴が必要(-" = 0)か、不必要(-" = 1)か説明の教師データ min G ℒ ", H " + D 1 H IH > >!H log # ! % ( 解く問題：勾配によるI番⽬の特徴の貢献度説明の教師データによるロス $ % ! &! ' '(! log , ( " # 学習フロー [Ross+ 2017] 不必要な特徴の貢献度が低くなる＝予測モデルがその特徴を使わなくなる

ੜ੒"*ͷͨΊͷ9"* 35

⽣成AI 画像⽣成AI 36 ⼤規模⾔語モデル (LLM) ⽣成させた“⽣成AIについて教える⼈⼯知能” のイラスト from DALL・E 4(6)
テキスト画像 4(6) テキストテキスト

⽣成AIにおけるXAI利⽤の例 • ⽣成物に対する特徴の貢献を説明 (因⼦型説明) − ⼈が期待したとおりに⽣成できているかの確認や、効果的なプロンプトになっているかの分析等に使える • ⽣成物に貢献する訓練事例を説明 (事例型説明)
− ⽣成画像が著作権侵害していないかの確認や、⽣成⽂が参考にした⽂章の確認等に使える • ⼈間の創作物か、AIによる⽣成物かの判別における根拠の説明 • 説明を利⽤して⽣成AIの出⼒を改善 37

単語が⽣成画像のどの領域に対応付くかを可視化 38 [Hertz+ 2022] • ⼊⼒⽂の意図をAIが汲み取れているかを確認 • 説明を編集して⼈間の思い通りの場所に物体を配置⼊⼒⽂ a
furry bear watching a bird 画像⽣成AI 各単語が⽣成された画像にどのように影響を与えているかの説明説明の⽤途出⼒ &(()

⽣成画像に寄与する訓練画像を説明 39 … 予測への各訓練事例の寄与を推定 TRAK [Park+ 2023] TRAKに基づく訓練事例の寄与度計算を画像⽣成の拡散モデルに適⽤ [Georgiev+ 2023]

本物の画像かAI⽣成画像かを分類し、その根拠を可視化 40 “A skier is overlooking the beautiful white snow
covered landscape” 本物の画像 (キャプション付き) ⽣成 AI⽣成画像 (Stable Diffusion) 訓練データとして利⽤ 4(6) ⼊⼒画像が本物かAI⽣成画像かを分類する分類器を構築本物 or AI⽣成? [Pondoc+ 2023]

本物の画像かAI⽣成画像かを分類し、その根拠を可視化 • 明らかにおかしい造形になっている場合はこの説明で理解できる • 造形が正確になったときに、どのような説明であれば⼈が違いを理解できるのかが課題 41 4(6) ⼊⼒画像が本物かAI⽣成画像かを分類する分類器を構築本物
or AI⽣成? #(%; ') 事後説明器分類に寄与する箇所の可視化 [Pondoc+ 2023]

⼤規模⾔語モデル(LLM)の出⼒を説明で改善させる 42 In-context Learning LLMがタスクを解く前に、少数の回答例や考え⽅のヒントをプロンプトとして与え、LLMの出⼒をユーザの意図する⽅向へ導く例: 感情分類における1ショットプロンプト Review: この映画はつまらん.
Sentiment: negative. Review: この映画⼤好き. Sentiment: Positive. LLM [Satyapriya+ 2023] (1つの回答例をプロンプトとして与える) どんなプロンプトを与えれば出⼒が改善するかが盛んに研究されている

⼤規模⾔語モデル(LLM)の出⼒を説明で改善させる 43 [Satyapriya+ 2023] 1. 軽量LLMを⽤いて、検証セットで間違えやすい⽂の集合を得る 2. 間違えやすい⽂における、正しい回答に効いている重要な単語を
事後説明器を⽤いて得る 3. 間違えやすい⽂と正しい回答をするために重要な単語を加えた回答例を⽣成

まとめ • XAIが重要視される背景、XAIの分類 • 代表的な説明⼿法: LIME, Integrated Gradients • XAI研究の発展の動向
− 複雑な予測モデルが⾃⾝の予測結果を説明できる − 説明の評価尺度で最適化する − ⼈が望む説明を出⼒できるようにする • ⽣成AIにおけるXAI − ⽣成物に対する特徴の貢献を説明 − ⽣成物に貢献する訓練事例を説明 − ⼈間の創作物か、AIによる⽣成物かの判別における根拠の説明 − 説明を利⽤して⽣成AIの出⼒を改善 44

参考⽂献 1/2 • [恵⽊ 2020] 恵⽊正史. “XAI(eXplainable AI)技術の研究動向.” ⽇本セキュリティ・マネジメント学会誌, vol.
34, no. 1, 2020, https://www.jstage.jst.go.jp/article/jssmjournal/34/1/34_20/_pdf/-char/ja. • [Ribeiro+ 2016] Ribeiro, Marco Tulio, et al. “ʻWhy Should I Trust You?ʼ: Explaining the Predictions of Any Classifier.” arXiv:1602.04938 [cs, Stat], Feb. 2016. arXiv.org, http://arxiv.org/abs/1602.04938. • [Sundararajan+ 2017] Sundararajan, Mukund, et al. “Axiomatic Attribution for Deep Networks.” arXiv [cs.LG], 4 Mar. 2017, http://arxiv.org/abs/1703.01365. arXiv. • [Doshi-Velez+ 2017] Doshi-Velez, Finale, and Been Kim. “Towards A Rigorous Science of Interpretable Machine Learning.” arXiv [stat.ML], 28 Feb. 2017, http://arxiv.org/abs/1702.08608. arXiv. • [Yoshikawa+ 2022] Yoshikawa, Yuya, and Tomoharu Iwata. “Neural Generators of Sparse Local Linear Models for Achieving Both Accuracy and Interpretability.” An International Journal on Information Fusion, vol. 81, May 2022, pp. 116‒28. • [Yakura+ 2019] Yakura, Hiromu, et al. “Neural Malware Analysis with Attention Mechanism.” Computers & Security, vol. 87, Nov. 2019, p. 101592. • [Yoshikawa+ 2023] Yoshikawa, Yuya, and Tomoharu Iwata. “Explanation-Based Training with Differentiable Insertion/Deletion Metric-Aware Regularizers.” arXiv [cs.LG], Oct. 2023, https://arxiv.org/abs/2310.12553. arXiv. 45

参考⽂献 2/2 • [Alvarez+ 2018] Alvarez Melis, David, and Tommi
Jaakkola. “Towards Robust Interpretability with Self- Explaining Neural Networks.” Advances in Neural Information Processing Systems, vol. 31, 2018, https://proceedings.neurips.cc/paper/2018/hash/3e9f0fc9b2f89e043bc6233994dfcf76-Abstract.html. • [Ross+ 2017] Ross, Andrew Slavin, et al. “Right for the Right Reasons: Training Differentiable Models by Constraining Their Explanations.” Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, International Joint Conferences on Artificial Intelligence Organization, 2017, https://doi.org/10.24963/ijcai.2017/371. • [Hertz+ 2022] Hertz, Amir, et al. “Prompt-to-Prompt Image Editing with Cross Attention Control.” arXiv [cs.CV], 2 Aug. 2022, http://arxiv.org/abs/2208.01626. arXiv. • [Georgiev+ 2023] Georgiev, Kristian, et al. The Journey, Not the Destination: How Data Guides Diffusion Models. 23 June 2023, https://openreview.net/pdf?id=9hK9NbUAex. • [Park+ 2023] Park, Sung Min, et al. “TRAK: Attributing Model Behavior at Scale.” arXiv [stat.ML], 24 Mar. 2023, http://arxiv.org/abs/2303.14186. arXiv. • [Pondoc+ 2023] Pondoc, Christopher, et al. Seeing Through the Facade: Understanding the Realism, Expressivity, and Limitations of Diffusion Models. June 2023, https://openreview.net/forum?id=wOC0BELg7g. • [Satyapriya+ 2023] Satyapriya, et al. “Post Hoc Explanations of Language Models Can Improve Language Models.” arXiv [cs.CL], 19 May 2023, http://arxiv.org/abs/2305.11426. arXiv. 46

説明可能AI：代表的手法と最近の動向

説明可能AI：代表的手法と最近の動向

More Decks by Yuya Yoshikawa

Other Decks in Research

Featured

Transcript