Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ブラックボックス機械学習モデルの判断根拠を説明する技術

 ブラックボックス機械学習モデルの判断根拠を説明する技術

日本応用数理学会 ものづくり企業に役立つ応用数理手法の研究会 第56回技術セミナー

Yuya Yoshikawa

June 11, 2024
Tweet

More Decks by Yuya Yoshikawa

Other Decks in Research

Transcript

  1. ⾃⼰紹介 最近の研究トピック −説明可能AI (解釈可能な機械学習) −動作認識 2 吉川 友也 (よしかわ ゆうや)

    千葉⼯業⼤学 ⼈⼯知能・ソフトウェア技術研究センター 上席研究員 博⼠(⼯学) − 2015年 奈良先端科学技術⼤学院⼤学
  2. 本講演で想定する機械学習(予測)モデル 4 ⼊⼒ 𝒙 ∈ ℝ" モデル 𝑓! 出⼒ 𝑦

    ∈ ℝ 年収予測の例 勤続 年数 会社 規模 東京 在住 5.2 325 1 年収 562.6
  3. 本講演で想定する機械学習(予測)モデル 6 ⼊⼒ 𝑥 モデル 𝑓! 出⼒ 𝑦 モデル𝑓! …

    (深層)ニューラルネット 例: 多層パーセプトロン ⼊⼒ 出⼒ パラメータ𝜃はネットワークの 各辺に付く ⾮線形変換を何回も繰り返す
  4. 0 20 40 60 80 100 Jan-16 Jul-16 Jan-17 Jul-17

    Jan-18 Jul-18 Jan-19 Jul-19 Jan-20 Jul-20 Jan-21 Jul-21 Jan-22 Jul-22 Jan-23 Jul-23 Jan-24 説明可能AI (Explainable AI; XAI) • モデルの複雑化や訓練データの⼤規模化により、⾼精度の予測が 可能になった⼀⽅で、モデルのブラックボックス化が進み、 モデルの挙動を把握することは困難になった • 説明可能AIは、モデルの⼊出⼒の関係や、モデル内部のパラメータ の挙動の解析を⾏うことで、モデルの振る舞いを⼈が理解できるよ うにする技術 • 年々、説明可能AIの需要は⾼まっている 8 “Explainable AI”の検索数 (Googleトレンド調べ)
  5. AIの透明性と解釈性に関する社会からの要求 9 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判 できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰ を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則 内閣府 ⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則

    2016年 4⽉ G7⾹川 ⼈⼯知能の開発原則の提唱 AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉ 「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と その結果に対する説明責任(アカウンタビリティ)が適切に確保されると共に、 技術に対する信頼性(Trust)が担保される必要がある。 2019年 5⽉ EU AI規制法案 (24年5⽉成⽴) 2021年 4⽉ ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し かつそれを適切に使⽤することができるようにするため、当該システムの動作 が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと する。
  6. 事後説明 Post-hoc explanation 後付けの説明器が 予測モデルを説明 10 説明⼿法の分類 ⼤域説明 Global/model explanation

    予測モデル全体を説明 局所説明 Local explanation 個々の予測結果を説明 ⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が説明 モデル⾮依存 Model-agnostic 予測モデルはブラックボックス として説明 モデル依存 Model-specific 予測モデルの構造や途中計算を 利⽤して説明
  7. 事後説明 Post-hoc explanation 後付けの説明器が 予測モデルを説明 11 説明⼿法の分類 ⼤域説明 Global/model explanation

    予測モデル全体を説明 局所説明 Local explanation 個々の予測結果を説明 ⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が説明 モデル⾮依存 Model-agnostic 予測モデルはブラックボックス として説明 モデル依存 Model-specific 予測モデルの構造や途中計算を 利⽤して説明 本講演の ターゲット
  8. 局所説明⼿法の分類 [恵⽊ 2020] 例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース 予測に効いた特徴を⽤いて説明 “A⽒と類似の申込みで返済が 滞った事例がある” 事例型説明

    類似した訓練事例を⽰して説明 “A⽒の会社の信⽤度が低かった” 知識型説明 外部知識を利⽤して説明 “もしA⽒の年収が〇〇円以上 であれば審査は通っていた” 反実型説明 予測を変えるために必要なことを説明 12 “A⽒の職業が〇〇だから” 因⼦型説明 予測に効いた特徴を⽤いて説明
  9. 予測精度が⾼くても、予測結果の説明は重要 AI利⽤者視点 13 ① AIの結果に根拠が付き 信⽤できるようになる ② ⾼リスクな意思決定が 必要な場⾯でもAIを利⽤ できるようになる

    AI開発者視点 ③ バグの発⾒や モデルの改善に繋がる ④ 不公平さをもたらす バイアスの発⾒に繋がる • 推薦システム • 検索システム • 医療画像診断 • 与信審査 • セキュリティ • 前処理や途中の計算で 発⽣するバグ • 不必要な特徴の削除 • 職業を当てる画像認識で 性別や⼈種を表す領域に 注⽬していないか
  10. ブラックボックスモデルの予測結果の説明 14 ⾝⻑ 体重 東京 出⾝ 172 63 1 性別

    確率 男性 0.79 ⼥性 0.21 ⼊⼒: 特徴量 𝒙 予測モデル 𝑓(𝑥) 𝑒(𝒙, 𝒚; 𝑓) 説明器 出⼒: 予測確率 * 𝒚 ⾝ ⻑ 体 重 東 京 出 ⾝ 貢献度 説明 ⼊出⼒の関係を利⽤して、後付けで予測結果を説明 基本的な⽅針
  11. what is the temperature at the center of the earth

    データ種別、因⼦型の局所説明の具体例 表形式データの場合 画像データの場合 テキストデータの場合 15 ⾝⻑ 体重 東京 出⾝ 172 63 1 ⼊⼒ 𝒙 ∈ ℝ! ⾝ ⻑ 体 重 東 京 出 ⾝ 予測結果に対する 各特徴の貢献度を説明 貢献度 / 𝝓 ∈ ℝ! ⾝⻑ 体重 東京 出⾝ 0.8 0.6 -0.1 貢献度 or ⼊⼒ 𝒙 ∈ ℝ"×$×% 予測結果に対する 各ピクセルの貢献度を説明 貢献度 / 𝝓 ∈ ℝ$×% ⼊⼒ 𝒙 = [単語1, 単語2, ⋯ , 単語𝐷] 予測結果に対する 各単語の貢献度を説明 what is the temperature at the center of the earth 貢献度 / 𝝓 ∈ ℝ!
  12. Local Interpretable Model-agnostic Explanations (LIME) • ⼊⼒点周辺でサロゲートモデルを学習することで、予測に対する 特徴量の貢献を求める − サロゲートモデルとして、局所線形回帰モデルを使⽤

    16 図は[Ribeiro+ 2016] Fig. 3から引⽤ サロゲートモデル 𝑔 𝒛; 𝒘 = / ! 𝑤! 𝑧! ⾝ ⻑ 体 重 東 京 出 ⾝ 貢献度 説明 𝑔 𝒛 の パラメータ 𝒘を推定 𝒘を貢献度として説明 ⼊⼒空間 ℝ"
  13. 摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 17 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から 線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 ⾝⻑

    体重 東京 出⾝ 172 63 1 ⼊⼒ 𝒙 ⾝⻑ 体重 東京 168 63 1 摂動させた⼊⼒ 9 𝒙& 𝒛: = [0 1 1] 𝒛; = [1 0 0] ⾝⻑ 体重 東京 172 45 0 摂動させた⼊⼒ 9 𝒙' … 摂動させた⼊⼒を𝑀個⽣成 ⼆値ベクトル𝒛を𝑀個⽣成 𝒛で0を持つ特徴を 別の値に置き換え … 摂動させた⼊⼒に対する予測モデルの出⼒を得る 𝑓(𝑥) 3 𝒙# 3 𝒙$ … … … 性別 確率 男性 0.59 ⼥性 0.41 予測確率 9 𝒚& 性別 確率 男性 0.70 ⼥性 0.30 予測確率 9 𝒚' … ステップ① ステップ② 予測モデル [Ribeiro+ 2016]
  14. 摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 18 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から 線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 𝒛から予測確率を当てる重み付き線形回帰を学習

    𝑾∗ = argmin𝑾 8 AB: ; 𝜋 𝒛A : 𝒚A − 𝑾𝒛A C C + 𝜆 𝑾 C C ※ 𝑾はクラス数×特徴の数のサイズ すべての要素が1のベクトルとの類似度 𝑾∗の𝑐⾏⽬がクラス𝑐への特徴量の貢献度となる 摂動させた⼊⼒に対する予測モデルの出⼒を得る 𝑓(𝑥) 3 𝒙# 3 𝒙$ … … … 性別 確率 男性 0.59 ⼥性 0.41 予測確率 9 𝒚& 性別 確率 男性 0.70 ⼥性 0.30 予測確率 9 𝒚' … ステップ② ステップ③ 予測モデル [Ribeiro+ 2016]
  15. SHapley Additive exPlanations (SHAP) • 協⼒ゲーム理論のShapley値の概念を応⽤して、特徴量の貢献度を 計算 20 𝑓 𝒙

    ≈ 𝐸 𝑓 𝑥 + / % 𝑤% 協⼒ゲーム(Shapley値) 貢献が違う複数⼈で仕事をしたときに 各⼈の仕事に対する貢献度を考慮して 公平に報酬を分配する⽅法 SHAP 貢献が違う複数の特徴量で予測を したときに、各特徴量の予測に対 する貢献度を考慮して、公平に 予測値への貢献を分配する⽅法 予測値 𝑓(𝒙) 𝑥# 𝑥" 𝑥& 𝑤& 𝑤( 𝑤) [Lundberg+ 2017]
  16. 特徴量のShapley値の厳密計算 21 𝑤" = 1 𝐽 ! * #⊆%∖{"} 𝑆

    ! 𝐽 − 𝑆 − 1 ! (𝔼[𝑓 ℎ 𝒛) |𝒛#∪ " ) ] − 𝔼[𝑓 ℎ(𝒛′) |𝒛# ) ]) 特徴量 𝑗 のShapley値 特徴量集合𝑆に𝑗を追加したときの 予測値の増分の期待値 特徴量集合𝑆に𝑗を 追加したときの 場合の数 • 単純にやると、𝒪(2|%|) 回予測モデルの出⼒を求める必要がある − 特徴量の数 𝐽 = 100 なら、≈ 10!" 回! • 計算量を減らすための近似法 − 予測モデル⾮依存、サンプリングによる近似(Kernel SHAP) − ⽊構造ベース予測モデルに特化した近似(Tree SHAP) − ニューラルネットベース予測モデルに特化した近似(Deep SHAP)
  17. Kernel SHAP: Shapleyカーネルを⽤いた重み付き最⼩⼆乗法 22 𝑾∗ = argmin 𝑾 * 𝒛!~𝒩

    𝒙! 𝜋 𝒛) 𝑓 ℎ(𝒛)) − 𝑾0𝒛′ 1 重み付き最⼩⼆乗法を解くことで、Shapley値を近似できる ただし、𝜋 𝒛) はShapleyカーネル 𝜋 𝒛) = (|𝐽| − 1) 𝐶 𝐽 , 𝒛) 𝒛) 𝐽 − 𝒛) 𝐶 𝐽 , 𝐳) : 𝐽 から 𝐳) 取る組み合わせの数 = argmin 𝑾 * 234 5 𝜋 𝒛2 C 𝒚2 − 𝑾𝒛2 1 1 ← LIMEと同じ形
  18. ブラックボックスモデルの説明における課題 • サロゲートモデル(局所線形回帰)のパラメータ推定の精度は、 事例数(=モデルの出⼒回数)が多いほど改善する • LIMEのデフォルト設定では、1つの説明を得るために5000回モデルに問 い合わせる 23 最先端のモデルはクラウド上にあり、API経由で使うことが多い 時間的コスト

    ⾦銭的コスト ネットワーク経由で 利⽤するため、問い合 わせに時間が掛かる モデルへの問い合わせ が従量課⾦になって いる場合が多い LIME, Kernel SHAPは、多数のモデルへの問い合わせを要する より少ないモデルへの問い合わせで⾼品質な説明を出⼒することが重要
  19. 提案法の概要 • ブラックボックスモデルに対する局所説明法 • ⼊⼒が⼆段階の⼊れ⼦構造になっている場合に使える − 例:集合データ、テキストデータ • ⼆種類のAttribution(予測に対する特徴の貢献度)を同時推定 −

    Instance Attribution (IA): 集合の各要素の貢献度 − Feature Attribution (FA): 各要素の特徴量の貢献度 • IAとFAの間の⼀貫性を考慮することで、効率的に推定 • 少ないモデルの実⾏回数で、正確・忠実・⼀貫した説明が⽣成できる 25
  20. 問題設定 • 説明したい事例 𝒙 = 𝒙" "34 % ∈ 𝒳,

    𝒙" ∈ ℝ6# • ラベルの確信度 𝑦 ∈ 𝒴 ⊆ ℝ • ブラックボックスモデル 𝑓: 𝒳 → 𝒴 27 • Instance Attribution (IA) 𝜶 ∈ ℝ% • Feature Attribution (FA) 𝜷 = 𝜷" "34 % , 𝜷" ∈ ℝ6# ⼊⼒ 出⼒
  21. サロゲートモデルに基づくInstance Attribution (IA) 28 集合の要素が予測にどう貢献するかを説明 IA推定の流れ(サロゲートモデルが線形回帰の場合) 1. 簡易⼊⼒𝒛7 ∈ 0,1

    %をランダムに𝑁8 個⽣成し、𝒁8 = 𝒛4, ⋯ , 𝒛% 0 とする 2. 𝒁8に基づいて𝒙の近傍点 C 𝒙7 ∈ 𝒳を𝑁8 個⽣成 ⼊⼒ 𝒙 = 簡易⼊⼒ 𝒛7 = 近傍点 U 𝒙7 = 𝒙4 𝒙1 𝒙9 ( 0 1 1 )⊤ 𝒙1 𝒙9 { } { } 𝒄
  22. サロゲートモデルに基づくInstance Attribution (IA) 29 集合の要素が予測にどう貢献するかを説明 1. 簡易⼊⼒𝒛7 ∈ 0,1 %をランダムに𝑁8

    個⽣成し、𝒁8 = 𝒛4, ⋯ , 𝒛% 0 とする 2. 𝒁8に基づいて𝑥の近傍点 C 𝒙7 ∈ 𝒳を𝑁8 個⽣成 3. 2を⽤いてモデルの出⼒X 𝑦7 ∈ 𝒴を得て、C 𝒚8 = 𝑦4, ⋯ , 𝑦% 0 とする 4. 簡易⼊⼒𝒁8と出⼒C 𝒚8を⽤いて、局所線形回帰 𝑒8: 0,1 % → 𝒴 を学習 𝑒8 𝒛; 𝜶 = * "34 % 𝛼"𝑧" U 𝜶 = min 𝜶 1 2 C 𝒚8 − 𝒁8𝜶 0 𝑾8 C 𝒚8 − 𝒁8𝜶 + 𝜆Ω(𝜶) サロゲートモデル サロゲートモデルの学習=IA 𝜶の推定 IA推定の流れ(サロゲートモデルが線形回帰の場合)
  23. サロゲートモデルに基づくFeature Attribution (FA) • 近傍点の作り⽅は異なるが、IAと同様の⽅法でFAを推定 30 集合の要素の特徴量が予測にどう貢献するかを説明 𝑒; 𝒛;; 𝜷

    = * "34 % * <34 6# 𝛽"<𝑧"< ; a 𝜷 = min 𝜷 1 2 C 𝒚; − 𝒁;𝜷 0 𝑾; C 𝒚; − 𝒁;𝜷 + 𝜆Ω(𝜷) ⼊⼒ 𝒙 = 簡易⼊⼒ 𝒛7 = 近傍点 U 𝒙7 = { 0.3, −0.1 , 0.5, −0.1, 0.3 , −0.1, 0.4, 0.2 . } { 0, 1 , 1, 1, 0 , 0, 1, 0 . } { 𝑐, −0.1 , 0.5, −0.1, 𝑐 , 𝑐 , 0.4, 𝑐 . } サロゲートモデル サロゲートモデルの学習=FA 𝜷の推定
  24. IAとFAの⼀貫性 • IAとFAを独⽴に推定する場合、⼀貫性の性質を満たさない場合がある − データ不⾜で、サロゲートモデルが過⼩適合 (underfitting) − ⼈⼯的に⽣成した⼊⼒に対して、モデルが頑健でない (c.f., missingness

    bias) 31 𝛼" = * <34 6# 𝛽"< 各𝑗番⽬のインスタンスについて、 𝑒; 𝒛;; 𝜷 = * "34 % * <34 6# 𝛽"<𝑧"< ; FAのサロゲートモデル 𝑒8 𝒛8; 𝜶 = * "34 % 𝛼"𝑧" 8 IAのサロゲートモデル IAとFAの⼀貫性の性質
  25. 提案法 集合データのような⼆段階の⼊れ⼦構造の⼊⼒に対して、 ⼀貫性の性質を満たすように、IAとFAを同時推定 32 a 𝜷 = min 𝜷 1

    2 C 𝒚; − 𝒁;𝜷 0 𝑾; C 𝒚; − 𝒁;𝜷 + 𝜆Ω(𝜷) U 𝜶 = min 𝜶 1 2 C 𝒚8 − 𝒁8𝜶 0 𝑾8 C 𝒚8 − 𝒁8𝜶 + 𝜆Ω(𝜶) ℒ8(𝜶) ℒ;(𝜷) IAの最適化 FAの最適化 従来法 従来法
  26. 提案法 集合データのような⼆段階の⼊れ⼦構造の⼊⼒に対して、 ⼀貫性の性質を満たすように、IAとFAを同時推定 33 U 𝜶, a 𝜷 = min

    𝜶,𝜷 ℒ8 𝜶 + ℒ; 𝜷 + 𝜆Ω 𝜶 + 𝜆Ω(𝜷) IAとFAの ⼀貫性制約付き 最適化 s. t. 𝛼" = * <34 6# 𝛽"< (∀𝑗 ∈ 1, ⋯ , 𝐽 ) 提案法 交互⽅向乗数法 (ADMM)に基づいた最適化アルゴリズムを導出 • IAとFAを分離して解くことが可能 • 正則化項Ωとして、スパース正則化等を利⽤可能
  27. ADMMに基づく最適化アルゴリズム 1. 補助変数 k 𝜶, k 𝜷 (𝜶, 𝜷と同じ形)と、ラグランジュ乗数𝒗4, 𝒗1,

    𝒗9 を導⼊ 2. 各変数 𝜶, 𝜷, k 𝜶, k 𝜷, 𝒗4, 𝒗1, 𝒗9 を0で初期化 3. ℒ?@AA 𝜶, 𝜷, k 𝜶, k 𝜷, 𝒗4, 𝒗1, 𝒗9 を最⼩化するように 他の変数を固定して、 𝜶, 𝜷, k 𝜶, k 𝜷のそれぞれを更新 4. 𝒗4, 𝒗1, 𝒗9 を更新(詳細は割愛) 5. 収束してなかったら、3に戻る 34 ⽬的関数 ℒ?@AA 𝜶, 𝜷, k 𝜶, k 𝜷, 𝒗4, 𝒗1, 𝒗9 = ℒ( 𝜶 + ℒ) 𝜷 + 𝜆Ω ? 𝜶 + 𝜆Ω ? 𝜷 +𝒗# * 𝜶 − ? 𝜶 + 𝒗" * 𝜷 − ? 𝜷 + 𝒗& * 𝜶 − 𝑴𝜷 + 𝜇# 2 𝜶 − ? 𝜶 " + 𝜇# 2 𝜷 − ? 𝜷 " + 𝜇" 2 𝜶 − 𝑴𝜷 " 最適化の⼿順
  28. Multiple Instance Learningの画像分類実験 • 実験設定 − データセット: Pascal VOC Segmentationから⾃前で構築したMIL⽤データセット

    − モデル:DeepSet invariant model (画像エンコーダ:ResNet-50) > 精度: 0.945 − 訓練データでモデルを学習、テストデータで説明器を評価 35 ブラック ボックスモデル (集合関数) 事例:画像集合 出⼒: 猫がいる確率 0.93
  29. 評価尺度 • 正確性評価 − NDCG (IA⽤):正解の画像に対して⾼いIAを付けているか − AUROC (FA⽤):正解のスーパーピクセルに対して⾼いFAをつけて いるか

    • 忠実性評価 − Insertion/Deletion:IA(FA)が⼤きい順に画像(スーパーピクセル) を追加/削除したときのモデルの出⼒の変化の⼤きさで評価 • ⼀貫性評価 − Consistency:⼀貫性の性質を満たせているか − MIIL⼀致度:最⼤IAを持つ画像と、最⼤FAを持つスーパーピクセル の画像が⼀致しているか 36
  30. 提案法 & ⽐較⼿法 • 提案法 (CIFA) − LIMEベースで⼀貫性制約を⼊れてIAとFAを同時推定 • LIME

    − IAとFAを別々に推定 • MILLI − MIL特化のIA推定法 [Early+ ʻ21] + LIMEでFAを推定 • BU-LIME − LIMEでFAを推定した後、⼀貫性の性質を満たすIAをFAから計算 • TD-LIME/TD-MILLI − LIME/MILLIでIAを推定した後、⼀貫性の性質を満たすFAをIAから計算 37 [Early+ ‘21] Early et al., "Model Agnostic Interpretability for Multiple Instance Learning." ICLR. 2021.
  31. 実験結果:正確性 38 IA NDCG (𝑁8 = 5) FA AUROC (𝑁8

    = 20) 少ないモデルへの問い合わせ回数で良いIA、FAが推定できる
  32. 実験結果:⼀貫性 40 Consistency (𝑁8 = 20) MIIF⼀致度 (𝑁8 = 20)

    少ないモデルへの問い合わせ回数で良いIA、FAが推定できる
  33. パラメータ化説明器: 事後説明器の振る舞いを学習 ⼊⼒ 𝒙 予測確率 D 𝒚 貢献度 𝝓∗ ⾝⻑

    体重 東京 0.8 0.6 -0.1 「性別=男性」に対する 予測モデル (固定) 𝑓(𝑥) 𝑒(𝒙; 𝑓) 事後説明器 𝝓∗と/ 𝝓の 不⼀致度ロス ℰ(𝒙; 𝑓) パラメータ化説明器 予測貢献度 / 𝝓 ⾝⻑ 体重 東京 0.7 0.5 -0.2 学習フロー 推論では、事後説明器の代わりに学習したパラメータ化説明器を⽤いる • 1事例に依存しないため 説明が安定 • 説明⽣成時に⾼速 メリット • 事前の訓練が必要 • 分布外⼊⼒に対して、モデ ルに忠実な説明ができない デメリット (事後説明器との⽐較) Backward 42 [Situ+ 2021]
  34. ⼤規模⾔語モデル(LLM)に説明を⽣成させる 44 LLMに予測と同時に特徴量の重要度を出⼒させる アプローチ 予測精度 ラベル予測のみ 92% 先に説明、後に予測 85% 先に予測、後に説明

    88% • 説明を出⼒させることで予測精度に影響 があるか? − 影響ある。予測のみの⽅が精度が⾼い。 • 説明の忠実性評価 − LIMEを⽤いた場合よりも忠実性評価は少し悪い 評価尺度 LIME LLM⽣成 Comprehensiveness (↑) 重要な単語を除いた際の確信度の差 0.27 0.27 Sufficiency (↓) 重要な単語のみ⽤いた際の確信度の差 0.20 0.22 Decision flip (↑) 重要な単語を除いた際に予測が変わる割合 0.10 0.07 [Huang+ ʻ23] ※LLM⽣成のクセ: 0.5や0.75のような丸められた数値が出やすい
  35. まとめ • 説明可能AIは、モデルの振る舞いを⼈が理解できるようにする技術 • ブラックボックスモデルに対しては、モデルの⼊出⼒の関係から 説明を⽣成するアプローチ(LIME、Kernel SHAP)が主流 • 最先端のモデルはAPI経由で利⽤することが多く、多数のモデルの 問い合わせ回数を必要とするアプローチは実⽤上利⽤できず

    • ⼊⼒の⼊れ⼦構造を活⽤することで、モデルの問い合わせ回数を減 らして、質の良い説明を⽣成できる(吉川の最近の研究) • モデルへの問い合わせを⼤幅に減らすために、パラメータ化説明器 や、LLMで予測と同時に説明を⽣成する⽅法が研究されている 45
  36. 参考⽂献 • [恵⽊ 2020] 恵⽊正史. “XAI(eXplainable AI)技術の研究動向.” ⽇本セキュリティ・マネジメント学会誌, vol. 34,

    no. 1, 2020, https://www.jstage.jst.go.jp/article/jssmjournal/34/1/34_20/_pdf/-char/ja. • [Ribeiro+ 2016] Ribeiro, Marco Tulio, et al. “ʻWhy Should I Trust You?ʼ: Explaining the Predictions of Any Classifier.” arXiv:1602.04938 [cs, Stat], Feb. 2016. arXiv.org, http://arxiv.org/abs/1602.04938. • [Lundberg+ 2017] Lundberg, Scott M., and Su-In Lee. “A Unified Approach to Interpreting Model Predictions.” Advances in Neural Information Processing Systems 30, edited by I. Guyon et al., Curran Associates, Inc., 2017, pp. 4765‒74. • [Situ+ 2021] Situ, Xuelin, et al. “Learning to Explain: Generating Stable Explanations Fast.” Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Association for Computational Linguistics, 2021, pp. 5340‒55. • [Huang+ 2023] Huang, Shiyuan, et al. “Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations.” arXiv [cs.CL], 17 Oct. 2023, http://arxiv.org/abs/2310.11207. arXiv. 46