Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2023年度人工知能学会全国大会 (JSAI2023) チュートリアル「解釈可能な機械学習 〜説明は人のためか〜」

2023年度人工知能学会全国大会 (JSAI2023) チュートリアル「解釈可能な機械学習 〜説明は人のためか〜」

Yuya Yoshikawa

June 08, 2023
Tweet

More Decks by Yuya Yoshikawa

Other Decks in Research

Transcript

  1. ⾃⼰紹介 最近の研究トピック −解釈可能な機械学習(説明可能AI) −動作認識 2 吉川 友也 (よしかわ ゆうや) 千葉⼯業⼤学

    ⼈⼯知能・ソフトウェア技術研究センター 上席研究員 博⼠(⼯学) − 2015年 奈良先端科学技術⼤学院⼤学
  2. 本チュートリアルの内容 1. なぜ「解釈可能な機械学習」が必要なのか 2. 代表的な説明⼿法(事後説明器) 3. 説明の定量評価 4. ⾃⼰説明可能な予測モデル 5.

    説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. ??のための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 3
  3. ⾼い予測精度を出すために機械学習モデルはどんどん複雑化 4 0 5 10 15 20 25 30 35

    40 2018 2019 2020 2021 2022 2023 パープレキシティ (WikiText-103) ⼤規模⾔語モデルの予測性能 https://paperswithcode.com/sota/language-modelling-on-wikitext-103 から作成
  4. ⾼い予測精度を出すために機械学習モデルはどんどん複雑化 5 0.01 0.1 1 10 100 1000 2018 2019

    2020 2021 2022 モデルサイズ (x109) ⼤規模⾔語モデルのサイズ https://huggingface.co/blog/large-language-models から作成
  5. AIの透明性と解釈性に関する社会からの要求 7 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判 できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰ を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則 内閣府 ⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則

    2016年 4⽉ G7⾹川 ⼈⼯知能の開発原則の提唱 AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉ 「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と その結果に対する説明責任(アカウンタビリティ)が適切に確保されると共に、 技術に対する信頼性(Trust)が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年以降の発効?) 2021年 4⽉ ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し かつそれを適切に使⽤することができるようにするため、当該システムの動作 が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと する。
  6. AIの透明性と解釈性の要求 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判 できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰ を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則 内閣府 ⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則 G7⾹川

    ⼈⼯知能の開発原則の提唱 AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉ 「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と その結果に対する説明責任(アカ ウンタビリティ)が適切に確保されると共に、 技術に対する信頼性(Trust)が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年施⾏予定) 2021年 4⽉ ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し かつそれを適切に使⽤することができるようにするため、当該システムの動作 が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと する。 2016年 4⽉ 解釈可能な機械学習 または AIの透明性や解釈性の確保のための機械学習技術を と呼びます。 解釈可能な機械学習のなかでも、 予測において何の特徴がどのように効いたのか を説明する技術について紹介します。 8 説明可能AI (XAI)
  7. 事後説明 Post-hoc explanation 後付けの説明器が予測に対して 特徴がどのように効くか説明 9 解釈可能な機械学習の分類 ⼤域説明 Global/model explanation

    学習した予測モデル全体で 特徴がどのように効くか説明 局所説明 Local explanation 個々の予測結果に対して 特徴がどのように効くか説明 ⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が予測に対して 特徴がどのように効くか説明 予測において何の特徴がどのように効いたのかを説明する
  8. 事後説明 Post-hoc explanation 後付けの説明器が予測に対して 特徴がどのように効くか説明 10 ⼤域説明 Global/model explanation 学習した予測モデル全体で

    特徴がどのように効くか説明 局所説明 Local explanation 個々の予測結果に対して 特徴がどのように効くか説明 ⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が予測に対して 特徴がどのように効くか説明 本チュートリアルでは ⼤域説明は扱いません 解釈可能な機械学習の分類 予測において何の特徴がどのように効いたのかを説明する
  9. 局所説明⼿法の分類 [恵⽊ 2020] 例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース 予測に効いた特徴を⽤いて説明 “A⽒と類似の申込みで返済が 滞った事例がある” 事例型説明

    類似した訓練事例を⽰して説明 “A⽒の会社の信⽤度が低かった” 知識型説明 外部知識を利⽤して説明 “もしA⽒の年収が〇〇円以上 であれば審査は通っていた” 反実型説明 予測を変えるために必要なことを説明 11 “A⽒の職業が〇〇だから” 因⼦型説明 予測に効いた特徴を⽤いて説明
  10. 局所説明⼿法の分類 [恵⽊ 2020] 例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース 予測に効いた特徴を⽤いて説明 “A⽒と類似の申込みで返済が 滞った事例がある” 事例型説明

    類似した訓練事例を例⽰して説明 “A⽒の会社の信⽤度が低かった” 知識型説明 外部知識を利⽤して説明 “もしA⽒の年収が〇〇円以上 であれば審査は通っていた” 反実型説明 予測を変えるために必要なことを説明 “A⽒の職業が〇〇だから” 因⼦型説明 予測に効いた特徴を⽤いて説明 12 本チュートリアルでは 因⼦型説明を扱います
  11. what is the temperature at the center of the earth

    データ種別、因⼦型の局所説明の具体例 表形式データの場合 画像データの場合 テキストデータの場合 13 ⾝⻑ 体重 東京 出⾝ 172 63 1 ⼊⼒ 𝒙 ∈ ℝ! ⾝ ⻑ 体 重 東 京 出 ⾝ 予測結果に対する 各特徴の貢献度を説明 貢献度 $ 𝝓 ∈ ℝ! ⾝⻑ 体重 東京 出⾝ 0.8 0.6 -0.1 貢献度 or ⼊⼒ 𝒙 ∈ ℝ"×$×% 予測結果に対する 各ピクセルの貢献度を説明 貢献度 $ 𝝓 ∈ ℝ$×% ⼊⼒ 𝒙 = [単語1, 単語2, ⋯ , 単語𝐷] 予測結果に対する 各単語の貢献度を説明 what is the temperature at the center of the earth 貢献度 $ 𝝓 ∈ ℝ!
  12. 予測精度が⾼くても、予測結果の説明は重要 AI利⽤者視点 14 ① AIの結果に根拠が付き 信⽤できるようになる ② ⾼リスクな意思決定が 必要な場⾯でもAIを利⽤ しやすくなる

    AI開発者視点 ③ バグの発⾒や モデルの改善に繋がる ④ 不公平さをもたらす バイアスの発⾒に繋がる • 推薦システム • 検索システム • 医療画像診断 • ⾃動運転 • セキュリティ • 前処理や途中の計算で 発⽣するバグ • 不必要な特徴の削除 • 職業を当てる画像認識で 性別や⼈種を表す領域に 注⽬していないか
  13. 本チュートリアルの内容 1. なぜ「解釈可能な機械学習」が必要なのか 2. 代表的な説明⼿法(事後説明器) 3. 説明の定量評価 4. ⾃⼰説明可能な予測モデル 5.

    説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. ??のための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 15
  14. 事後説明器 (post-hoc explainer) 予測モデルのアクセス可能性の仮定は様々 16 ⾝⻑ 体重 東京 出⾝ 172

    63 1 性別 確率 男性 0.79 ⼥性 0.21 ⼊⼒ 𝒙 予測に対して後付けで特徴の貢献度を説明 予測モデル 𝑓(𝑥) 𝑒(𝒙; 𝑓) 事後説明器 予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する ※予測モデルは学習済み Forward計算 のみ可 中間状態 が得られる 中間状態の微分 が得られる アクセス可能性の仮定の強さ
  15. 事後説明器 (post-hoc explainer) ⾝⻑ 体重 東京 出⾝ 172 63 1

    性別 確率 男性 0.79 ⼥性 0.21 𝑓(𝑥) 𝑒(𝒙; 𝑓) 事後説明器 予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する • 説明のために予測モデル を変更する必要がない メリット • 説明を⽣成するために 推論時に学習を必要とする 場合があり、計算量が⼤きい デメリット 17 予測モデル 予測に対して後付けで特徴の貢献度を説明 ※予測モデルは学習済み ⼊⼒ 𝒙
  16. 説明の作り⽅による事後説明器の分類 • 摂動に基づく⽅法 − 例:LIME, KernelSHAP, MAPLE • 微分に基づく⽅法 −

    例:Integrated Gradients, DeepLift, LRP, SmoothGrad • クラス活性化マップに基づく⽅法 − 例:GradCAM, GradCAM++, ScoreCAM, • オクルージョン(遮蔽)に基づく⽅法 − 例:RISE, Occlusion • アテンション(注意機構)に基づく⽅法 − 例:Attention Rollout, Attention Flow 18
  17. 摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 19 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から 線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 ⾝⻑

    体重 東京 出⾝ 172 63 1 ⼊⼒ 𝒙 ⾝⻑ 体重 東京 168 63 1 摂動させた⼊⼒ * 𝒙& 𝒛+ = [0 1 1] 𝒛, = [1 0 0] ⾝⻑ 体重 東京 172 45 0 摂動させた⼊⼒ * 𝒙' … 摂動させた⼊⼒を𝑀個⽣成 ⼆値ベクトル𝒛を𝑀個⽣成 𝒛で0を持つ特徴を 別の値に置き換え … 摂動させた⼊⼒に対する予測モデルの出⼒を得る 𝑓(𝑥) ( 𝒙! ( 𝒙" … … … 性別 確率 男性 0.59 ⼥性 0.41 予測確率 * 𝒚& 性別 確率 男性 0.70 ⼥性 0.30 予測確率 * 𝒚' … ステップ① ステップ② 予測モデル [Ribeiro+ 2016]
  18. 摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 20 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から 線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 𝒛から予測確率を当てる重み付き線形回帰を学習

    𝑾∗ = argmin𝑾 . 12+ , 𝜋 𝒛1 0 𝒚1 − 𝑾𝒛1 3 3 + 𝜆 𝑾 3 3 ※ 𝑾はクラス数×特徴の数のサイズ すべての要素が1のベクトルとの類似度 𝑾∗の𝑐⾏⽬がクラス𝑐への特徴量の貢献度となる 摂動させた⼊⼒に対する予測モデルの出⼒を得る 𝑓(𝑥) ( 𝒙! ( 𝒙" … … … 性別 確率 男性 0.59 ⼥性 0.41 予測確率 * 𝒚& 性別 確率 男性 0.70 ⼥性 0.30 予測確率 * 𝒚' … ステップ② ステップ③ 予測モデル [Ribeiro+ 2016]
  19. 勾配に基づく事後説明器: Integrated Gradients 21 特徴に関する予測モデルの微分 • 出⼒が特徴の値にどの程度敏感に反応するかを評価可能 𝜕𝑓(𝒙) 𝜕𝑥4 ノイズを多く含む説明になりやすい

    𝑒 𝑥; 𝑓 4 = (𝑥4 − ̅ 𝑥4 ) > 5 + 𝜕𝑓 ? 𝒙 + 𝛼(𝒙 − ? 𝒙) 𝜕𝑥4 𝑑𝛼 特徴量𝑖の貢献度: ベースライン⼊⼒ ? 𝒙 から⼊⼒ 𝒙 までの直線上で微分の積分を計算 Integrated Gradients ) 𝒙 と 𝒙 の間を補間 ※ 実際には積分をリーマン和で近似計算 勾配をそのまま⽤いる問題点 [Sundararajan+ 2017]
  20. 勾配に基づく事後説明器: Integrated Gradients 22 予測モデルの出⼒に関する⼊⼒の微分 は、出⼒が⼊⼒にどの程度敏感に反応するかを評価可能 𝜕𝑓(𝒙) 𝜕𝑥4 ⼊⼒ 𝒙

    周辺のみだと、重要でない特徴も⼤きな微分値を持ちうる 𝑒 𝑥; 𝑓 4 = (𝑥4 − ̅ 𝑥4 ) > 5 + 𝜕𝑓 ? 𝒙 + 𝛼(𝒙 − ? 𝒙) 𝜕𝑥4 𝑑𝛼 特徴量𝑖の貢献度: ベースライン⼊⼒ ? 𝒙 から⼊⼒ 𝒙 までの直線上で微分の積分を計算 コレ ) 𝒙 と 𝒙 の間を補間 • 数式が⼀番単純 • 同じ振る舞いの特徴は、特徴を⼊れ替えても 貢献度が同じになる 積分経路は直線以外も考えられる しかし、以下の理由で直線がベター ※ 実際には積分をリーマン和で近似計算 Integrated Gradients ちなみに [Sundararajan+ 2017]
  21. クラス活性化マップに基づく事後⾃⼰説明器: Class Activation Mapping (CAM) 25 GradCAMの 事前準備 [Zhou+ 2016]

    Global Average Pooling (GAP) 1つの活性化マップの平均値を次の1つのニューロンの値にする 𝑤", 𝑤#, ⋯ , 𝑤$ 学習可能な重み(linear layer)
  22. クラス活性化マップに基づく事後⾃⼰説明器: Class Activation Mapping (CAM) 26 GradCAMの 事前準備 [Zhou+ 2016]

    B 𝝓 = . 62+ 7 𝑤6 𝑨6 𝑨+ 𝑨3 𝑨7 B 𝝓 貢献度: (ピクセルの) GAPを⼊れてCNNの構造を変えるため 精度への悪影響の可能性あり
  23. クラス活性化マップに基づく事後説明器: Gradient-based Class Activation Map (GradCAM) 27 予測モデルの中間層の微分値を利⽤してCAMの重み 𝑤% %&"

    $ を計算 𝑨+ , 𝑨3 , ⋯ , 𝑨7 予測ラベル * 𝑦 活性化マップ GAPである 必要はない GradCAMの重み計算 )* + ! " )𝑨# … 活性化マップに関する 𝑓(𝑥)の微分 𝑤6 = GAP 𝜕𝑓 𝑥 8 9 𝜕𝑨6 重み: B 𝝓 = ReLU . 62+ 7 𝑤6 𝑨6 GradCAMの貢献度計算 貢献度: (ピクセルの) [Selvaraju+ 2020]
  24. オクルージョンに基づく事後説明器: Randomized Input Sampling for Explanation (RISE) 28 ランダムに多数⽣成したマスクで⼊⼒の⼀部を隠し、 それを予測モデルに⼊⼒したときの出⼒から特徴の貢献度を計算

    𝒙 ⊙ 𝑀( ( 𝝓 𝒙 𝑀( ! 𝜙- ← 𝑒 𝒙; 𝑓 - ∝ ) ./0 1 𝑓(𝒙 ⊙ 𝑀.) ⋅ 𝑀-. 特徴𝑖の貢献度: マスクされた⼊⼒ 特徴𝑖が使われたか(1 or 0) RISEの貢献度計算 [Petsiuk+ 2018]
  25. オクルージョンに基づく事後説明器: Randomized Input Sampling for Explanation (RISE) 𝒙 ⊙ 𝑀(

    ( 𝝓 𝒙 𝑀( ! 𝜙- ← 𝑒 𝒙; 𝑓 - ∝ ) ./0 1 𝑓(𝒙 ⊙ 𝑀.) ⋅ 𝑀-. 特徴𝑖の貢献度: マスクされた⼊⼒ 特徴𝑖が使われたか(1 or 0) RISEの貢献度計算 29 LIMEと似ているが、逆⾏列計算が必要ないため計算が速い メリット [Petsiuk+ 2018]
  26. 事後説明器による説明の⽐較 ~計算時間~ 31 (Xpliqueを使⽤) 事後説明器 1画像あたりの 平均計算時間(秒) ハイパーパラメータ LIME 3.91

    摂動させた⼊⼒の数: 2000 Integrated Grad. 3.42 近似グリッド点の数: 80 GradCAM 0.25 RISE 1.35 マスクの数: 2000 ハイパーパラメータ次第で計算時間は変わる LIME, Integrated Grad., RISEは、計算時間と説明の質がトレードオフ 実験環境: Google Collaboratory (GPU: Tesla T4)
  27. アテンションに基づく事後説明器:Attention Rollout 32 (Transformer⽤) Attention weight 𝑨 ∈ ℝ#×# http://jalammar.github.io/illustrated-transformer

    から図を引⽤ Attention weight 𝑨 ∈ ℝ<×< は 特徴(単語)の埋め込みベクトル 𝑽 ∈ ℝ<×> に重み付けする役割 ※ 𝑁: 単語列の⻑さ+1 𝐷: 次元数 <cls>の埋め込みベクトルに作⽤するAttention weightを⾒れば 分類に効いている特徴が分かりそう 可視化すると、⼊⼒に近い層の𝑨は有効な 値を持つが、出⼒に近い層ではほぼ⼀定 層 の 深 さ 𝑙 モデル全体で特徴の効き⽅を説明 するにはどうするか? [Abnar+ 2020]
  28. アテンションに基づく事後説明器:Attention Rollout 𝐿 = 1 𝐿 = 2 … 𝐿

    = 6 ⽣の Attention 0.69 0.10 … 0.29 Attention Rollout 0.32 0.38 … 0.71 33 (Transformer⽤) / 𝑨(8) = 𝑨(0)𝑨(9) ⋯ 𝑨(8) Attention Rollout 1層⽬から𝐿層⽬までattention weight 𝑨(?)を繰り返し掛ける ※ 𝑙: 層のインデックス - 𝑨(()の<cls>に対する値が特徴の貢献度となる “key”にアテンションが当たっている “the key to the cabinets”の次に来る動詞が 単数形か複数形かを当てる問題 Blank-outで測る単語の重要度と Attentionを⽤いた単語の重要度の相関 [Abnar+ 2020]
  29. 本チュートリアルの内容 1. なぜ「解釈可能な機械学習」が必要なのか 2. 代表的な説明⼿法(事後説明器) 3. 説明の定量評価 4. ⾃⼰説明可能な予測モデル 5.

    説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. ??のための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 34
  30. 説明の定量評価 説明を利⽤する実際のタスクで⼈間が評価 「実⽤」に根ざした評価 説明を⽤いる簡単なタスクを⼈間が⾏って評価 「⼈間」に根ざした評価 35 (Application-grounded Evaluation) (Human-grounded Evaluation)

    評価コストが⾼いが、実際のタスクを持っている場合は最も効果的 例: 説明を⾒ながら予測モデルの出⼒を⽬的の値に近づけるゲームを⼈が⾏い 何ステップで達成できるかを評価 例: 推薦理由を説明できる推薦システムで、商品購⼊確率を評価 [Doshi-Velez+ 2017]
  31. 説明の定量評価 説明を利⽤する実際のタスクで⼈間が評価 「実⽤」に根ざした評価 説明を⽤いる簡単なタスクを⼈間が⾏って評価 「⼈間」に根ざした評価 ⼈間を介さず、機械が⾃動的に説明を評価できる代理タスクを使⽤ 「機能」に根ざした評価 37 (Application-grounded Evaluation)

    (Human-grounded Evaluation) (Functionally-grounded Evaluation) 評価コストが⾼いが、実際のタスクを持っている場合は最も効果的 例: 説明を⾒ながら予測モデルの出⼒を⽬的の値に近づけるゲームを⼈が⾏い 何ステップで達成できるかを評価 簡単でコストがかからないため、論⽂中の定量評価の多くがこのタイプ 例: 推薦理由を説明できる推薦システムで、商品購⼊確率を評価 [Doshi-Velez+ 2017]
  32. 「機能」に根ざした評価の例 • Faithfulness / Fidelity (忠実性) − 予測モデルの振る舞いを説明が忠実に表現しているか • Stability

    (安定性) − 近傍事例に対して説明が安定しているか • Consistency (⼀貫性) − 同じ⼊⼒に対して同じ説明を出⼒できるか • Compactness / Sparseness (簡潔さ) − 簡単な説明(貢献度の⾮ゼロ成分が少ない)になっているか 38
  33. 本チュートリアルの内容 1. なぜ「解釈可能な機械学習」が必要なのか 2. 代表的な説明⼿法(事後説明器) 3. 説明の定量評価 4. ⾃⼰説明可能な予測モデル 5.

    説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. ??のための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 39
  34. ⾃⼰説明可能な予測モデル (self-explainable models) • 予測に対して忠実な説明を ⽣成しやすい • 事後説明器に⽐べると推論 時に速い 40

    予測モデル⾃⾝が特徴の貢献度を説明できる ⾝⻑ 体重 東京 出⾝ 172 63 1 性別 確率 男性 0.79 ⼥性 0.21 特徴量 𝒙 ⾃⼰説明可能な 予測モデル 𝑓(𝑥) 予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する 通常の教師データを⽤いて 予測モデルを学習 メリット • 事後説明器とは異なり 予測モデルを変えるので 予測精度が悪くなる可能性 がある デメリット 推論フロー
  35. Self-Explaining Neural Networks (SENN) 41 NNがコンセプト特徴とその関連度を⽣成して予測と説明を⾏う ⼊⼒ 𝒙 ℎ(⋅) 𝜃(⋅)

    コンセプト変換器 関連度変換器 関連度 𝜃(𝒙) コンセプト表現 ℎ(𝒙) 内積で予測 5 𝑦 = 𝑓 𝑥 推論フロー = 𝜃 𝒙 *ℎ(𝒙) 𝜃(𝑥)の可視化 C3がプラスに 効いているのが 分かる 各コンセプト の代表例 [Alvarez+ 2018]
  36. Self-Explaining Neural Networks (SENN) 42 NNがコンセプト特徴とその関連度を⽣成して予測と説明を⾏う ⼊⼒ 𝒙 ℎ(⋅) 𝜃(⋅)

    コンセプト変換器 関連度変換器 関連度 𝜃(𝒙) コンセプト表現 ℎ(𝒙) 内積で予測 5 𝑦 = 𝑓 𝑥 学習フロー = 𝜃 𝒙 *ℎ(𝒙) ℎ(𝑥)から𝑥の 復元ロス 予測ロス 𝜃(𝑥)の 正則化 argmin<,> ℒ? 𝑓 𝒙 , 𝑦 + 𝜆ℒ< 𝑓 𝒙 + 𝜉ℒ> 𝒙, ? 𝒙 ℒ+ ℒ, ℒ- 最適化問題: Backward [Alvarez+ 2018]
  37. 本チュートリアルの内容 1. なぜ「解釈可能な機械学習」が必要なのか 2. 代表的な説明⼿法(事後説明器) 3. 説明の定量評価 4. ⾃⼰説明可能な予測モデル 5.

    説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. ??のための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 43
  38. メリット デメリット 説明による正則化付き予測モデル最適化 44 事後説明器による説明の評価スコアが良くなるように予測モデルを学習 性別 確率 男性 0.79 ⼥性

    0.21 ⼊⼒ 𝒙 予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する ⾝⻑ 体重 東京 出⾝ 172 63 1 予測モデル 𝑓(𝑥) 𝑒(𝒙; 𝑓) 事後説明器 「機能」に根づいた評価 に基づく正則化 ▷ 忠実度 ▷ スパース度 など • 予測モデルや事後説明器の アーキテクチャを変更せず 説明を改善可能 • 予測モデルを変えるので 予測精度が悪くなる可能性 • 学習時の計算量増⼤ 推論フロー
  39. Explanation-based Optimization (ExpO) 45 LIMEによる説明のFidelityスコアが良くなるように予測モデルを学習 性別 確率 男性 0.79 ⼥性

    0.21 ⼊⼒ 𝒙 予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する 予測モデル 𝑓(𝑥) 𝑒(𝒙; 𝑓) LIME Fidelity正則化 ⼊⼒𝒙の近傍点に対して、解釈モデル𝑔が予測モデル𝑓の振る舞いを 精度良く再現する度合い ( 𝑔は線形回帰モデルを仮定 ) 𝔼𝒙!∼0𝒙 [ 𝑓 𝒙1 − 𝑔 𝒙1 # ] Fidelity Ω 𝑓, 𝑔, 𝑁𝒙 = 𝔼𝒙!∼$𝒙 [ 𝑓 𝒙% − 𝑔 𝒙% & ] 予測ロス ℒ(𝑦, & 𝒚) Backward Fidelityスコア: ※ 𝑁𝒙 … ⼊⼒𝒙の近傍点集合 定量化 (低い⽅が良い) ※ 線形回帰𝑔の係数 として( 𝝓を利⽤ 学習フロー [Plumb+ ʻ19]
  40. 本チュートリアルの内容 1. なぜ「解釈可能な機械学習」が必要なのか 2. 代表的な説明⼿法(事後説明器) 3. 説明の定量評価 4. ⾃⼰説明可能な予測モデル 5.

    説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. ??のための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 47
  41. 説明の教師データを利⽤した予測モデル最適化 タイプ① 説明そのものを変化させる 48 性別 確率 男性 0.79 ⼥性 0.21

    ⼊⼒ 𝒙 予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑ 体重 出⾝ 0.8 0.6 -0.1 「性別=男性」に対する 予測モデル 𝑓(𝑥) 𝑒(𝒙; 𝑓) 勾配ベース 説明器 予測ロス ℒ(𝑦, & 𝒚) Backward 𝑨 ∈ 0,1 A … 𝑑番⽬の特徴が必要(𝐴2 = 0)か、不必要(𝐴2 = 1)か 説明の教師データ min L ℒ 𝑦, U 𝑦 + 𝛼 . M 𝐴M 𝜕 𝜕𝑥M log 𝑓 𝑥 9 3 解く問題: 勾配による𝑑番⽬の特徴の貢献度 説明の教師データによる ロス 𝛼 ' # 𝐴# 𝜕 𝜕𝑥# log 𝑓 𝑥 $ % 学習フロー [Ross+ 2017]
  42. 説明の教師データを利⽤した予測モデル最適化 タイプ② 説明の教師データを利⽤して⼊⼒を変える 49 性別 確率 男性 0.79 ⼥性 0.21

    ⼊⼒ 𝒙 予測確率 & 𝒚 予測モデル 𝑓(𝑥) 予測ロス ℒ(𝑦, & 𝒚) Backward 𝑨 ∈ 0,1 3 … 𝑑番⽬の特徴が必要(𝐴% = 0)か、不必要(𝐴% = 1)か 説明の教師データ min L ℒ 𝑦, Y 𝒚 + 𝛼KL 𝑓(𝒙)||𝑓(mask(𝒙; 𝑨) ) 解く問題: 𝒙とmask 𝒙; 𝑨 の予測の不⼀致度 mask 𝒙; 𝑨 … 𝐴2 = 1となる特徴をマスク (例: 𝑥2 = 0) する関数 ⼈が必要だと思う特徴のみを利⽤して予測モデルが予測するので 説明器も影響を受けて、その特徴に対して⼤きな貢献度を出⼒しやすくなる 性別 確率 男性 0.54 ⼥性 0.46 予測確率 * 𝒚 mask 𝒙; 𝑨 KL 𝑓(𝒙)||𝑓(mask(𝒙; 𝑨) ) 学習フロー [Ismail+ 2021]
  43. 本チュートリアルの内容 1. なぜ「解釈可能な機械学習」が必要なのか 2. 代表的な説明⼿法(事後説明器) 3. 説明の定量評価 4. ⾃⼰説明可能な予測モデル 5.

    説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. ??のための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 50
  44. パラメータ化説明器: 事後説明器の振る舞いを学習 ⼊⼒ 𝒙 予測確率 & 𝒚 貢献度 𝝓∗ ⾝⻑

    体重 東京 0.8 0.6 -0.1 「性別=男性」に対する 予測モデル (固定) 𝑓(𝑥) 𝑒(𝒙; 𝑓) 事後説明器 𝝓∗と( 𝝓の 不⼀致度ロス ℰ(𝒙; 𝑓) パラメータ化説明器 予測貢献度 ( 𝝓 ⾝⻑ 体重 東京 0.7 0.5 -0.2 学習フロー 推論では、事後説明器の代わりに学習したパラメータ化説明器を⽤いる • 1事例に依存しないため 説明が安定 • 推論時に⾼速 メリット • 教師データを⽤いた 訓練が必要 デメリット (事後説明器との⽐較) Backward 51 [Situ+ 2021]
  45. 本チュートリアルの内容 1. なぜ「解釈可能な機械学習」が必要なのか 2. 代表的な説明⼿法(事後説明器) 3. 説明の定量評価 4. ⾃⼰説明可能な予測モデル 5.

    説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. AIのための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 53
  46. パラメータ化説明器の活⽤: 効率的な「知識蒸留」を⼿助けする説明器 54 学習済み 予測モデル(教師) 𝑓( (𝑥) 𝑓) (𝑥) 予測モデル(⽣徒)

    予測の不⼀致度 ℒ(& 𝒚) , & 𝒚( ) 教師と⽣徒の間で予測結果だけでなく、 説明が⼀致するように予測モデル(⽣徒)を学習したい ≈ ? 𝒚O ? 𝒚P ⼊⼒ 𝒙 典型的な知識蒸留 [Fernandes+ 2022]
  47. パラメータ化説明器の活⽤: 効率的な「知識蒸留」を⼿助けする説明器 55 学習済み 予測モデル(教師) 𝑓( (𝑥) 𝑓) (𝑥) 予測モデル(⽣徒)

    予測の不⼀致度 ℒ(& 𝒚) , & 𝒚( ) ℰ& (𝒙; 𝑓& ) 教師の パラメータ化説明器 ℰ' (𝒙; 𝑓' ) ⽣徒の パラメータ化説明器 説明の不⼀致度 ℒ*+, (( 𝝓) , ( 𝝓( ) ≈ ≈ ? 𝒚O ? 𝒚P F 𝝓O F 𝝓P ⼊⼒ 𝒙 教師と⽣徒の間で予測結果だけでなく、 説明が⼀致するように予測モデル(⽣徒)を学習したい [Fernandes+ 2022]
  48. パラメータ化説明器の活⽤: 効率的な「知識蒸留」を⼿助けする説明器 56 学習済み 予測モデル(教師) 𝑓( (𝑥) 𝑓) (𝑥) 予測モデル(⽣徒)

    予測の不⼀致度 ℒ(& 𝒚) , & 𝒚( ) ℰ& (𝒙; 𝑓& ) 教師の パラメータ化説明器 ℰ' (𝒙; 𝑓' ) ⽣徒の パラメータ化説明器 説明の不⼀致度 ℒ*+, (( 𝝓) , ( 𝝓( ) ≈ ≈ ? 𝒚O ? 𝒚P F 𝝓O F 𝝓P 予測モデル(⽣徒)と教師・⽣徒のパラメータ化説明器が学習される Backward [Fernandes+ 2022]
  49. 説明の悪⽤: Model Inversion Attack 57 説明を利⽤して予測モデルの学習データの情報を復元する攻撃 𝑓(𝑥) 予測モデル 𝑒(𝒙; 𝑓)

    説明器 ブラック ボックス 貢献度 ( 𝝓 予測確率 & 𝒚 ⼊⼒画像 𝒙 外部から予測モデルや 説明器の情報は得られない 説明付きで画像認識 の結果を返すAPI [Zhao+ 2021]
  50. 説明の悪⽤: Model Inversion Attack 58 説明を利⽤して予測モデルの学習データの情報を復元する攻撃 𝑓(𝑥) 予測モデル 𝑒(𝒙; 𝑓)

    説明器 攻撃者 ブラック ボックス 貢献度 ( 𝝓 予測確率 & 𝒚 𝑓-(& 𝒚, ( 𝝓) 復元器 復元画像 * 𝒙 ⼊⼒画像 𝒙 1. 攻撃者は、訓練画像と同じ⺟集団の⼊⼒画像にアクセス (ただし訓練画像と⼊⼒画像は異なる) 2. 予測確率Q 𝒚と貢献度S 𝝓から⼊⼒画像を復元できる復元器を学習 3. 攻撃者は、公開されていない画像の予測確率* 𝐲と貢献度S 𝛟を何らか の⽅法で得て、復元器を⽤いて⼊⼒画像を推定 攻撃者 の⾏動 [Zhao+ 2021]
  51. 説明の悪⽤を防ぐ: Inversion-Resistant Explanations 59 説明を利⽤して訓練データの画像を復元されないように説明を変える 𝑓(𝑥) 予測モデル 𝑒(𝒙; 𝑓) 説明器

    攻撃者 ブラック ボックス 貢献度 ( 𝝓 予測確率 & 𝒚 𝑓-(& 𝒚, ( 𝝓) 復元器 復元画像 * 𝒙 ⼊⼒画像 𝒙 [Jeong+ 2022]
  52. 説明の悪⽤を防ぐ: Inversion-Resistant Explanations 説明を利⽤して訓練データの画像を復元されないように説明を変える 𝑓(𝑥) 予測モデル 𝑒(𝒙; 𝑓) 説明器 攻撃者

    ブラック ボックス 貢献度 ( 𝝓 予測確率 & 𝒚 𝑓-(& 𝒚, ( 𝝓) 復元器 復元画像 * 𝒙 ⼊⼒画像 𝒙 𝑓#( ノイズ⽣成器 ノイズ⽣成器 … 貢献度D 𝝓にノイズを乗せて、復元器の役に⽴たないようにする 攻撃者: ノイズあり貢献度D 𝝓からでも復元できる復元器を学習 防御者: 復元器の復元性能を下げるノイズ⽣成器の学習 敵対的 学習 60 [Jeong+ 2022]
  53. ⼤規模⾔語モデル(LLM)を説明で改善させる 代理モデルの 選択 Few-shot サンプル選択 貢献度計算 プロンプト作成 61 In-context Learning

    LLMがタスクを解く前に、少数の回答例や考え⽅のヒントをプロンプト として与え、LLMの出⼒を調整する 例: 感情分類における1ショットプロンプト Review: この映画はつまらん. Sentiment: negative. Review: この映画⼤好き. Sentiment: Positive. LLM 説明をIn-context Learningで利⽤することで、LLMの出⼒を改善させる 研究の ゴール [Satyapriya+ 2023]
  54. ⼤規模⾔語モデル(LLM)を説明で改善させる 代理モデルの 選択 Few-shot サンプル選択 貢献度計算 プロンプト作成 62 ステップ① 代理モデルの選択

    − LLMよりも軽量なモデル (GPT-2等)をLLMの代理モデルとして使⽤ ステップ② Few-shotサンプル選択 − LLMが間違える検証セットのサンプルを抽出 − 誤分類確信度スコア(MCS)の⾼い順に𝑠個⼊⼒⽂を選択 [Satyapriya+ 2023]
  55. ⼤規模⾔語モデル(LLM)を説明で改善させる 代理モデルの 選択 Few-shot サンプル選択 貢献度計算 プロンプト作成 63 ステップ③ 貢献度計算

    − 代理モデルを⽤いて事後説明器で 正解クラスに対する単語の貢献度を計算 − 各⼊⼒⽂に対して、 貢献度top-𝑘の単語を抽出 ステップ④ プロンプト作成 − 貢献度top-𝑘の単語を⽤いて In-context learningする ためのプロンプト作成 [Satyapriya+ 2023]
  56. 本チュートリアルの内容 1. なぜ「解釈可能な機械学習」が必要なのか 2. 代表的な説明⼿法(事後説明器) 3. 説明の定量評価 4. ⾃⼰説明可能な予測モデル 5.

    説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. AIのための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 64
  57. 説明⼿法を使う上で気をつけたいこと • 説明が常に予測モデルの振る舞いを反映するとは限らない − 事後説明器は、⼈間が理解可能なモデルで予測モデルの振る舞いを近似して いるので、予測モデルと説明の間でギャップは⽣まれうる • 説明が⼈間にとってわかりやすいとは限らない − 予測モデルに忠実であることは、⼈間が⾒てわかりやすいことを保証しない

    − ⼈間にとってわかりやすいことを保証したい場合、説明の正解を与えて学習 する必要がある • 予測モデルの「⾜かせ」になりえる − 説明による正則化付き予測モデル最適化等で説明を改善させるようにすれば、 予測モデルが本来持っていた予測性能を損なう可能性がある • 説明を悪者が利⽤する可能性がある − 説明には予測モデルの内部状態の情報が含まれるため、 それを悪⽤された場合に、訓練データの復元等をされる可能性がある 65
  58. まとめ • 代表的な説明⼿法(事後説明器) − LIME, Integrated Gradients, GradCAM, RISE •

    ⾃⼰説明可能な予測モデル • 説明による正則化付き予測モデル最適化 • 説明の教師データを利⽤した予測モデル最適化 • パラメータ化説明器 • AIのための説明 − 効率的な知識蒸留をするための説明器 − 説明を悪⽤して⼊⼒データを復元 − ⼤規模⾔語モデルを説明で改善 66 解釈可能な機械学習 〜 説明は⼈のためか〜? 予測モデルに忠実な説明、⼈にわかりやすい説明、AIのための説明 を紹介
  59. 参考⽂献 1/2 • [恵⽊ 2020] 恵⽊正史. “XAI(eXplainable AI)技術の研究動向.” ⽇本セキュリティ・マネジメント学会誌, vol.

    34, no. 1, 2020, https://www.jstage.jst.go.jp/article/jssmjournal/34/1/34_20/_pdf/-char/ja. • [Ribeiro+ 2016] Ribeiro, Marco Tulio, et al. “ʻWhy Should I Trust You?ʼ: Explaining the Predictions of Any Classifier.” arXiv:1602.04938 [cs, Stat], Feb. 2016. arXiv.org, http://arxiv.org/abs/1602.04938. • [Plumb+ 2019] Plumb, Gregory, et al. “Regularizing Black-Box Models for Improved Interpretability.” arXiv [cs.LG], 18 Feb. 2019, http://arxiv.org/abs/1902.06787. arXiv. • [Sundararajan+ 2017] Sundararajan, Mukund, et al. “Axiomatic Attribution for Deep Networks.” arXiv [cs.LG], 4 Mar. 2017, http://arxiv.org/abs/1703.01365. arXiv. • [Zhou+ 2016] Zhou, Bolei, et al. “Learning Deep Features for Discriminative Localization.” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, https://doi.org/10.1109/cvpr.2016.319. • [Selvaraju+ 2020] Selvaraju, Ramprasaath R., et al. “Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization.” International Journal of Computer Vision, vol. 128, no. 2, Feb. 2020, pp. 336‒59. • [Petsiuk+ 2018] Petsiuk, Vitali, et al. “RISE: Randomized Input Sampling for Explanation of Black- Box Models.” arXiv [cs.CV], 19 June 2018, http://arxiv.org/abs/1806.07421. arXiv. • [Abnar+ 2020] Abnar, Samira, and Willem Zuidema. “Quantifying Attention Flow in Transformers.” arXiv [cs.LG], May 2020, https://arxiv.org/abs/2005.00928. arXiv. • [Doshi-Velez+ 2017] Doshi-Velez, Finale, and Been Kim. “Towards A Rigorous Science of Interpretable Machine Learning.” arXiv [stat.ML], 28 Feb. 2017, http://arxiv.org/abs/1702.08608. arXiv. 67
  60. 参考⽂献 2/2 • [Alvarez+ 2018] Alvarez Melis, David, and Tommi

    Jaakkola. “Towards Robust Interpretability with Self- Explaining Neural Networks.” Advances in Neural Information Processing Systems, vol. 31, 2018, https://proceedings.neurips.cc/paper/2018/hash/3e9f0fc9b2f89e043bc6233994dfcf76-Abstract.html. • [Ross+ 2017] Ross, Andrew Slavin, et al. “Right for the Right Reasons: Training Differentiable Models by Constraining Their Explanations.” Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, International Joint Conferences on Artificial Intelligence Organization, 2017, https://doi.org/10.24963/ijcai.2017/371. • [Ismail+ 2021] Ismail, Aya Abdelsalam, et al. “Improving Deep Learning Interpretability by Saliency Guided Training.” Advances in Neural Information Processing Systems, vol. 34, 2021, pp. 26726‒39. • [Situ+ 2021] Situ, Xuelin, et al. “Learning to Explain: Generating Stable Explanations Fast.” Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Association for Computational Linguistics, 2021, pp. 5340‒55. • [Fernandes+ 2022] Fernandes, Patrick, et al. “Learning to Scaffold: Optimizing Model Explanations for Teaching.” Advances in Neural Information Processing Systems, vol. 35, 2022, pp. 36108‒22. • [Zhao+ 2021] Zhao, Xuejun, et al. “Exploiting Explanations for Model Inversion Attacks.” 2021 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, 2021, https://doi.org/10.1109/iccv48922.2021.00072. • [Jeong+ 2022] Jeong, Hoyong, et al. Learning to Generate Inversion-Resistant Model Explanations. 31 Oct. 2022, https://openreview.net/pdf?id=iy2G-yLGuku. • [Satyapriya+ 2023] Satyapriya, et al. “Post Hoc Explanations of Language Models Can Improve Language Models.” arXiv [cs.CL], 19 May 2023, http://arxiv.org/abs/2305.11426. arXiv. 68
  61. 69