ブラックボックス機械学習モデルの判断根拠を説明する技術

1 ブラックボックス機械学習モデルの判断根拠を説明する技術吉川友也千葉⼯業⼤学⼈⼯知能・ソフトウェア技術研究センターものづくり企業に役⽴つ応⽤数理⼿法の研究会第56回技術セミナー

⾃⼰紹介最近の研究トピック −説明可能AI (解釈可能な機械学習) −動作認識 2 吉川友也 (よしかわゆうや)
千葉⼯業⼤学⼈⼯知能・ソフトウェア技術研究センター上席研究員博⼠（⼯学） − 2015年奈良先端科学技術⼤学院⼤学

本講演で想定する機械学習（予測）モデル 3 ⼊⼒ 𝑥 モデル 𝑓! 出⼒ 𝑦

本講演で想定する機械学習（予測）モデル 4 ⼊⼒ 𝒙 ∈ ℝ" モデル 𝑓! 出⼒ 𝑦
∈ ℝ 年収予測の例勤続年数会社規模東京在住 5.2 325 1 年収 562.6

本講演で想定する機械学習（予測）モデル 5 ⼊⼒ 𝒙 ∈ ℝ#×%×& モデル 𝑓! 出⼒ 𝒚
∈ 0,1 ' 画像分類の例 0.1 0.9 0 0 イヌネコ⾃動⾞⼈

本講演で想定する機械学習（予測）モデル 6 ⼊⼒ 𝑥 モデル 𝑓! 出⼒ 𝑦 モデル𝑓! …
(深層)ニューラルネット例: 多層パーセプトロン⼊⼒出⼒パラメータ𝜃はネットワークの各辺に付く⾮線形変換を何回も繰り返す

本講演で想定する機械学習（予測）モデル • モデルの⼊出⼒の形式は分かる • モデルのアーキテクチャ、予測アルゴリズムは分からない • モデル内部での計算の途中結果は得られない 7 ⼊⼒ 𝑥
モデル 𝑓! 出⼒ 𝑦 モデルはブラックボックスブラックボックス設定

0 20 40 60 80 100 Jan-16 Jul-16 Jan-17 Jul-17
Jan-18 Jul-18 Jan-19 Jul-19 Jan-20 Jul-20 Jan-21 Jul-21 Jan-22 Jul-22 Jan-23 Jul-23 Jan-24 説明可能AI (Explainable AI; XAI) • モデルの複雑化や訓練データの⼤規模化により、⾼精度の予測が可能になった⼀⽅で、モデルのブラックボックス化が進み、モデルの挙動を把握することは困難になった • 説明可能AIは、モデルの⼊出⼒の関係や、モデル内部のパラメータの挙動の解析を⾏うことで、モデルの振る舞いを⼈が理解できるようにする技術 • 年々、説明可能AIの需要は⾼まっている 8 “Explainable AI”の検索数 (Googleトレンド調べ）

AIの透明性と解釈性に関する社会からの要求 9 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則内閣府⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則
2016年 4⽉ G7⾹川⼈⼯知能の開発原則の提唱ＡＩネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定とその結果に対する説明責任（アカウンタビリティ）が適切に確保されると共に、技術に対する信頼性（Trust）が担保される必要がある。 2019年 5⽉ EU AI規制法案 (24年5⽉成⽴) 2021年 4⽉ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈しかつそれを適切に使⽤することができるようにするため、当該システムの動作が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものとする。

事後説明 Post-hoc explanation 後付けの説明器が予測モデルを説明 10 説明⼿法の分類⼤域説明 Global/model explanation
予測モデル全体を説明局所説明 Local explanation 個々の予測結果を説明⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が説明モデル⾮依存 Model-agnostic 予測モデルはブラックボックスとして説明モデル依存 Model-specific 予測モデルの構造や途中計算を利⽤して説明

事後説明 Post-hoc explanation 後付けの説明器が予測モデルを説明 11 説明⼿法の分類⼤域説明 Global/model explanation
予測モデル全体を説明局所説明 Local explanation 個々の予測結果を説明⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が説明モデル⾮依存 Model-agnostic 予測モデルはブラックボックスとして説明モデル依存 Model-specific 予測モデルの構造や途中計算を利⽤して説明本講演のターゲット

局所説明⼿法の分類 [恵⽊ 2020] 例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース予測に効いた特徴を⽤いて説明 “A⽒と類似の申込みで返済が滞った事例がある” 事例型説明
類似した訓練事例を⽰して説明 “A⽒の会社の信⽤度が低かった” 知識型説明外部知識を利⽤して説明 “もしA⽒の年収が〇〇円以上であれば審査は通っていた” 反実型説明予測を変えるために必要なことを説明 12 “A⽒の職業が〇〇だから” 因⼦型説明予測に効いた特徴を⽤いて説明

予測精度が⾼くても、予測結果の説明は重要 AI利⽤者視点 13 ① AIの結果に根拠が付き信⽤できるようになる ② ⾼リスクな意思決定が必要な場⾯でもAIを利⽤できるようになる
AI開発者視点 ③ バグの発⾒やモデルの改善に繋がる ④ 不公平さをもたらすバイアスの発⾒に繋がる • 推薦システム • 検索システム • 医療画像診断 • 与信審査 • セキュリティ • 前処理や途中の計算で発⽣するバグ • 不必要な特徴の削除 • 職業を当てる画像認識で性別や⼈種を表す領域に注⽬していないか

ブラックボックスモデルの予測結果の説明 14 ⾝⻑体重東京出⾝ 172 63 1 性別
確率男性 0.79 ⼥性 0.21 ⼊⼒: 特徴量 𝒙 予測モデル 𝑓(𝑥) 𝑒(𝒙, 𝒚; 𝑓) 説明器出⼒: 予測確率 * 𝒚 ⾝⻑体重東京出⾝貢献度説明⼊出⼒の関係を利⽤して、後付けで予測結果を説明基本的な⽅針

what is the temperature at the center of the earth
データ種別、因⼦型の局所説明の具体例表形式データの場合画像データの場合テキストデータの場合 15 ⾝⻑体重東京出⾝ 172 63 1 ⼊⼒ 𝒙 ∈ ℝ! ⾝⻑体重東京出⾝予測結果に対する各特徴の貢献度を説明貢献度 / 𝝓 ∈ ℝ! ⾝⻑体重東京出⾝ 0.8 0.6 -0.1 貢献度 or ⼊⼒ 𝒙 ∈ ℝ"×$×% 予測結果に対する各ピクセルの貢献度を説明貢献度 / 𝝓 ∈ ℝ$×% ⼊⼒ 𝒙 = [単語1, 単語2, ⋯ , 単語𝐷] 予測結果に対する各単語の貢献度を説明 what is the temperature at the center of the earth 貢献度 / 𝝓 ∈ ℝ!

Local Interpretable Model-agnostic Explanations (LIME) • ⼊⼒点周辺でサロゲートモデルを学習することで、予測に対する特徴量の貢献を求める − サロゲートモデルとして、局所線形回帰モデルを使⽤
16 図は[Ribeiro+ 2016] Fig. 3から引⽤サロゲートモデル 𝑔 𝒛; 𝒘 = / ! 𝑤! 𝑧! ⾝⻑体重東京出⾝貢献度説明 𝑔 𝒛 のパラメータ 𝒘を推定 𝒘を貢献度として説明⼊⼒空間 ℝ"

摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 17 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明⾝⻑
体重東京出⾝ 172 63 1 ⼊⼒ 𝒙 ⾝⻑体重東京 168 63 1 摂動させた⼊⼒ 9 𝒙& 𝒛: = [0 1 1] 𝒛; = [1 0 0] ⾝⻑体重東京 172 45 0 摂動させた⼊⼒ 9 𝒙' … 摂動させた⼊⼒を𝑀個⽣成⼆値ベクトル𝒛を𝑀個⽣成 𝒛で0を持つ特徴を別の値に置き換え … 摂動させた⼊⼒に対する予測モデルの出⼒を得る 𝑓(𝑥) 3 𝒙# 3 𝒙$ … … … 性別確率男性 0.59 ⼥性 0.41 予測確率 9 𝒚& 性別確率男性 0.70 ⼥性 0.30 予測確率 9 𝒚' … ステップ① ステップ② 予測モデル [Ribeiro+ 2016]

摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 18 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 𝒛から予測確率を当てる重み付き線形回帰を学習
𝑾∗ = argmin𝑾 8 AB: ; 𝜋 𝒛A : 𝒚A − 𝑾𝒛A C C + 𝜆 𝑾 C C ※ 𝑾はクラス数×特徴の数のサイズすべての要素が1のベクトルとの類似度 𝑾∗の𝑐⾏⽬がクラス𝑐への特徴量の貢献度となる摂動させた⼊⼒に対する予測モデルの出⼒を得る 𝑓(𝑥) 3 𝒙# 3 𝒙$ … … … 性別確率男性 0.59 ⼥性 0.41 予測確率 9 𝒚& 性別確率男性 0.70 ⼥性 0.30 予測確率 9 𝒚' … ステップ② ステップ③ 予測モデル [Ribeiro+ 2016]

LIMEによる説明の例 19 図は https://github.com/marcotcr/lime から引⽤テキスト分類表形式データに対する分類画像分類

SHapley Additive exPlanations (SHAP) • 協⼒ゲーム理論のShapley値の概念を応⽤して、特徴量の貢献度を計算 20 𝑓 𝒙
≈ 𝐸 𝑓 𝑥 + / % 𝑤% 協⼒ゲーム（Shapley値）貢献が違う複数⼈で仕事をしたときに各⼈の仕事に対する貢献度を考慮して公平に報酬を分配する⽅法 SHAP 貢献が違う複数の特徴量で予測をしたときに、各特徴量の予測に対する貢献度を考慮して、公平に予測値への貢献を分配する⽅法予測値 𝑓(𝒙) 𝑥# 𝑥" 𝑥& 𝑤& 𝑤( 𝑤) [Lundberg+ 2017]

特徴量のShapley値の厳密計算 21 𝑤" = 1 𝐽 ! * #⊆%∖{"} 𝑆
! 𝐽 − 𝑆 − 1 ! (𝔼[𝑓 ℎ 𝒛) |𝒛#∪ " ) ] − 𝔼[𝑓 ℎ(𝒛′) |𝒛# ) ]) 特徴量 𝑗 のShapley値特徴量集合𝑆に𝑗を追加したときの予測値の増分の期待値特徴量集合𝑆に𝑗を追加したときの場合の数 • 単純にやると、𝒪(2|%|) 回予測モデルの出⼒を求める必要がある − 特徴量の数 𝐽 = 100 なら、≈ 10!" 回！ • 計算量を減らすための近似法 − 予測モデル⾮依存、サンプリングによる近似（Kernel SHAP） − ⽊構造ベース予測モデルに特化した近似（Tree SHAP） − ニューラルネットベース予測モデルに特化した近似（Deep SHAP）

Kernel SHAP: Shapleyカーネルを⽤いた重み付き最⼩⼆乗法 22 𝑾∗ = argmin 𝑾 * 𝒛!~𝒩
𝒙! 𝜋 𝒛) 𝑓 ℎ(𝒛)) − 𝑾0𝒛′ 1 重み付き最⼩⼆乗法を解くことで、Shapley値を近似できるただし、𝜋 𝒛) はShapleyカーネル 𝜋 𝒛) = (|𝐽| − 1) 𝐶 𝐽 , 𝒛) 𝒛) 𝐽 − 𝒛) 𝐶 𝐽 , 𝐳) : 𝐽 から 𝐳) 取る組み合わせの数 = argmin 𝑾 * 234 5 𝜋 𝒛2 C 𝒚2 − 𝑾𝒛2 1 1 ← LIMEと同じ形

ブラックボックスモデルの説明における課題 • サロゲートモデル（局所線形回帰）のパラメータ推定の精度は、事例数（＝モデルの出⼒回数）が多いほど改善する • LIMEのデフォルト設定では、1つの説明を得るために5000回モデルに問い合わせる 23 最先端のモデルはクラウド上にあり、API経由で使うことが多い時間的コスト
⾦銭的コストネットワーク経由で利⽤するため、問い合わせに時間が掛かるモデルへの問い合わせが従量課⾦になっている場合が多い LIME, Kernel SHAPは、多数のモデルへの問い合わせを要するより少ないモデルへの問い合わせで⾼品質な説明を出⼒することが重要

関連する最近の研究 24 原稿はこちら https://arxiv.org/abs/2405.14522

提案法の概要 • ブラックボックスモデルに対する局所説明法 • ⼊⼒が⼆段階の⼊れ⼦構造になっている場合に使える − 例：集合データ、テキストデータ • ⼆種類のAttribution（予測に対する特徴の貢献度）を同時推定 −
Instance Attribution (IA): 集合の各要素の貢献度 − Feature Attribution (FA): 各要素の特徴量の貢献度 • IAとFAの間の⼀貫性を考慮することで、効率的に推定 • 少ないモデルの実⾏回数で、正確・忠実・⼀貫した説明が⽣成できる 25

提案法でできること 26

問題設定 • 説明したい事例 𝒙 = 𝒙" "34 % ∈ 𝒳,
𝒙" ∈ ℝ6# • ラベルの確信度 𝑦 ∈ 𝒴 ⊆ ℝ • ブラックボックスモデル 𝑓: 𝒳 → 𝒴 27 • Instance Attribution (IA) 𝜶 ∈ ℝ% • Feature Attribution (FA) 𝜷 = 𝜷" "34 % , 𝜷" ∈ ℝ6# ⼊⼒出⼒

サロゲートモデルに基づくInstance Attribution (IA) 28 集合の要素が予測にどう貢献するかを説明 IA推定の流れ（サロゲートモデルが線形回帰の場合） 1. 簡易⼊⼒𝒛7 ∈ 0,1
%をランダムに𝑁8 個⽣成し、𝒁8 = 𝒛4, ⋯ , 𝒛% 0 とする 2. 𝒁8に基づいて𝒙の近傍点 C 𝒙7 ∈ 𝒳を𝑁8 個⽣成⼊⼒ 𝒙 = 簡易⼊⼒ 𝒛7 = 近傍点 U 𝒙7 = 𝒙4 𝒙1 𝒙9 ( 0 1 1 )⊤ 𝒙1 𝒙9 { } { } 𝒄

サロゲートモデルに基づくInstance Attribution (IA) 29 集合の要素が予測にどう貢献するかを説明 1. 簡易⼊⼒𝒛7 ∈ 0,1 %をランダムに𝑁8
個⽣成し、𝒁8 = 𝒛4, ⋯ , 𝒛% 0 とする 2. 𝒁8に基づいて𝑥の近傍点 C 𝒙7 ∈ 𝒳を𝑁8 個⽣成 3. 2を⽤いてモデルの出⼒X 𝑦7 ∈ 𝒴を得て、C 𝒚8 = 𝑦4, ⋯ , 𝑦% 0 とする 4. 簡易⼊⼒𝒁8と出⼒C 𝒚8を⽤いて、局所線形回帰 𝑒8: 0,1 % → 𝒴 を学習 𝑒8 𝒛; 𝜶 = * "34 % 𝛼"𝑧" U 𝜶 = min 𝜶 1 2 C 𝒚8 − 𝒁8𝜶 0 𝑾8 C 𝒚8 − 𝒁8𝜶 + 𝜆Ω(𝜶) サロゲートモデルサロゲートモデルの学習＝IA 𝜶の推定 IA推定の流れ（サロゲートモデルが線形回帰の場合）

サロゲートモデルに基づくFeature Attribution (FA) • 近傍点の作り⽅は異なるが、IAと同様の⽅法でFAを推定 30 集合の要素の特徴量が予測にどう貢献するかを説明 𝑒; 𝒛;; 𝜷
= * "34 % * <34 6# 𝛽"<𝑧"< ; a 𝜷 = min 𝜷 1 2 C 𝒚; − 𝒁;𝜷 0 𝑾; C 𝒚; − 𝒁;𝜷 + 𝜆Ω(𝜷) ⼊⼒ 𝒙 = 簡易⼊⼒ 𝒛7 = 近傍点 U 𝒙7 = { 0.3, −0.1 , 0.5, −0.1, 0.3 , −0.1, 0.4, 0.2 . } { 0, 1 , 1, 1, 0 , 0, 1, 0 . } { 𝑐, −0.1 , 0.5, −0.1, 𝑐 , 𝑐 , 0.4, 𝑐 . } サロゲートモデルサロゲートモデルの学習＝FA 𝜷の推定

IAとFAの⼀貫性 • IAとFAを独⽴に推定する場合、⼀貫性の性質を満たさない場合がある − データ不⾜で、サロゲートモデルが過⼩適合 (underfitting) − ⼈⼯的に⽣成した⼊⼒に対して、モデルが頑健でない (c.f., missingness
bias) 31 𝛼" = * <34 6# 𝛽"< 各𝑗番⽬のインスタンスについて、 𝑒; 𝒛;; 𝜷 = * "34 % * <34 6# 𝛽"<𝑧"< ; FAのサロゲートモデル 𝑒8 𝒛8; 𝜶 = * "34 % 𝛼"𝑧" 8 IAのサロゲートモデル IAとFAの⼀貫性の性質

提案法集合データのような⼆段階の⼊れ⼦構造の⼊⼒に対して、⼀貫性の性質を満たすように、IAとFAを同時推定 32 a 𝜷 = min 𝜷 1
2 C 𝒚; − 𝒁;𝜷 0 𝑾; C 𝒚; − 𝒁;𝜷 + 𝜆Ω(𝜷) U 𝜶 = min 𝜶 1 2 C 𝒚8 − 𝒁8𝜶 0 𝑾8 C 𝒚8 − 𝒁8𝜶 + 𝜆Ω(𝜶) ℒ8(𝜶) ℒ;(𝜷) IAの最適化 FAの最適化従来法従来法

提案法集合データのような⼆段階の⼊れ⼦構造の⼊⼒に対して、⼀貫性の性質を満たすように、IAとFAを同時推定 33 U 𝜶, a 𝜷 = min
𝜶,𝜷 ℒ8 𝜶 + ℒ; 𝜷 + 𝜆Ω 𝜶 + 𝜆Ω(𝜷) IAとFAの⼀貫性制約付き最適化 s. t. 𝛼" = * <34 6# 𝛽"< (∀𝑗 ∈ 1, ⋯ , 𝐽 ) 提案法交互⽅向乗数法 (ADMM)に基づいた最適化アルゴリズムを導出 • IAとFAを分離して解くことが可能 • 正則化項Ωとして、スパース正則化等を利⽤可能

ADMMに基づく最適化アルゴリズム 1. 補助変数 k 𝜶, k 𝜷 (𝜶, 𝜷と同じ形)と、ラグランジュ乗数𝒗4, 𝒗1,
𝒗9 を導⼊ 2. 各変数 𝜶, 𝜷, k 𝜶, k 𝜷, 𝒗4, 𝒗1, 𝒗9 を0で初期化 3. ℒ?@AA 𝜶, 𝜷, k 𝜶, k 𝜷, 𝒗4, 𝒗1, 𝒗9 を最⼩化するように他の変数を固定して、 𝜶, 𝜷, k 𝜶, k 𝜷のそれぞれを更新 4. 𝒗4, 𝒗1, 𝒗9 を更新（詳細は割愛） 5. 収束してなかったら、3に戻る 34 ⽬的関数 ℒ?@AA 𝜶, 𝜷, k 𝜶, k 𝜷, 𝒗4, 𝒗1, 𝒗9 = ℒ( 𝜶 + ℒ) 𝜷 + 𝜆Ω ? 𝜶 + 𝜆Ω ? 𝜷 +𝒗# * 𝜶 − ? 𝜶 + 𝒗" * 𝜷 − ? 𝜷 + 𝒗& * 𝜶 − 𝑴𝜷 + 𝜇# 2 𝜶 − ? 𝜶 " + 𝜇# 2 𝜷 − ? 𝜷 " + 𝜇" 2 𝜶 − 𝑴𝜷 " 最適化の⼿順

Multiple Instance Learningの画像分類実験 • 実験設定 − データセット： Pascal VOC Segmentationから⾃前で構築したMIL⽤データセット
− モデル：DeepSet invariant model (画像エンコーダ：ResNet-50) > 精度: 0.945 − 訓練データでモデルを学習、テストデータで説明器を評価 35 ブラックボックスモデル（集合関数）事例：画像集合出⼒：猫がいる確率 0.93

評価尺度 • 正確性評価 − NDCG (IA⽤)：正解の画像に対して⾼いIAを付けているか − AUROC (FA⽤)：正解のスーパーピクセルに対して⾼いFAをつけているか
• 忠実性評価 − Insertion/Deletion：IA(FA)が⼤きい順に画像(スーパーピクセル) を追加/削除したときのモデルの出⼒の変化の⼤きさで評価 • ⼀貫性評価 − Consistency：⼀貫性の性質を満たせているか − MIIL⼀致度：最⼤IAを持つ画像と、最⼤FAを持つスーパーピクセルの画像が⼀致しているか 36

提案法 & ⽐較⼿法 • 提案法 (CIFA) − LIMEベースで⼀貫性制約を⼊れてIAとFAを同時推定 • LIME
− IAとFAを別々に推定 • MILLI − MIL特化のIA推定法 [Early+ ʻ21] + LIMEでFAを推定 • BU-LIME − LIMEでFAを推定した後、⼀貫性の性質を満たすIAをFAから計算 • TD-LIME/TD-MILLI − LIME/MILLIでIAを推定した後、⼀貫性の性質を満たすFAをIAから計算 37 [Early+ ‘21] Early et al., "Model Agnostic Interpretability for Multiple Instance Learning." ICLR. 2021.

実験結果：正確性 38 IA NDCG (𝑁8 = 5) FA AUROC (𝑁8
= 20) 少ないモデルへの問い合わせ回数で良いIA、FAが推定できる

実験結果：忠実性 39 少ないモデルへの問い合わせ回数で良いIA、FAが推定できる IA Deletion (𝑁8 = 5) FA Deletion
(𝑁8 = 20)

実験結果：⼀貫性 40 Consistency (𝑁8 = 20) MIIF⼀致度 (𝑁8 = 20)
少ないモデルへの問い合わせ回数で良いIA、FAが推定できる

FAの可視化結果 41 𝑁8 = 20, 𝑁; = 50の場合提案法

パラメータ化説明器: 事後説明器の振る舞いを学習⼊⼒ 𝒙 予測確率 D 𝒚 貢献度 𝝓∗ ⾝⻑
体重東京 0.8 0.6 -0.1 「性別＝男性」に対する予測モデル (固定) 𝑓(𝑥) 𝑒(𝒙; 𝑓) 事後説明器 𝝓∗と/ 𝝓の不⼀致度ロス ℰ(𝒙; 𝑓) パラメータ化説明器予測貢献度 / 𝝓 ⾝⻑体重東京 0.7 0.5 -0.2 学習フロー推論では、事後説明器の代わりに学習したパラメータ化説明器を⽤いる • 1事例に依存しないため説明が安定 • 説明⽣成時に⾼速メリット • 事前の訓練が必要 • 分布外⼊⼒に対して、モデルに忠実な説明ができないデメリット (事後説明器との⽐較) Backward 42 [Situ+ 2021]

⼤規模⾔語モデル(LLM)に説明を⽣成させる 43 LLMに予測と同時に特徴量の重要度を出⼒させる映画レビュー⽂の感情分析タスクをLLMに解かせるケース [Huang+ ʻ23] 表は[Huang+ ʻ23]より引⽤先に、単語と単語の重要度のペアを出⼒⼊⼒⽂
タスク説明出⼒のテンプレートその後、感情ラベルとその確信度を出⼒

⼤規模⾔語モデル(LLM)に説明を⽣成させる 44 LLMに予測と同時に特徴量の重要度を出⼒させるアプローチ予測精度ラベル予測のみ 92% 先に説明、後に予測 85% 先に予測、後に説明
88% • 説明を出⼒させることで予測精度に影響があるか？ − 影響ある。予測のみの⽅が精度が⾼い。 • 説明の忠実性評価 − LIMEを⽤いた場合よりも忠実性評価は少し悪い評価尺度 LIME LLM⽣成 Comprehensiveness (↑) 重要な単語を除いた際の確信度の差 0.27 0.27 Sufficiency (↓) 重要な単語のみ⽤いた際の確信度の差 0.20 0.22 Decision flip (↑) 重要な単語を除いた際に予測が変わる割合 0.10 0.07 [Huang+ ʻ23] ※LLM⽣成のクセ: 0.5や0.75のような丸められた数値が出やすい

まとめ • 説明可能AIは、モデルの振る舞いを⼈が理解できるようにする技術 • ブラックボックスモデルに対しては、モデルの⼊出⼒の関係から説明を⽣成するアプローチ（LIME、Kernel SHAP）が主流 • 最先端のモデルはAPI経由で利⽤することが多く、多数のモデルの問い合わせ回数を必要とするアプローチは実⽤上利⽤できず
• ⼊⼒の⼊れ⼦構造を活⽤することで、モデルの問い合わせ回数を減らして、質の良い説明を⽣成できる（吉川の最近の研究） • モデルへの問い合わせを⼤幅に減らすために、パラメータ化説明器や、LLMで予測と同時に説明を⽣成する⽅法が研究されている 45

参考⽂献 • [恵⽊ 2020] 恵⽊正史. “XAI(eXplainable AI)技術の研究動向.” ⽇本セキュリティ・マネジメント学会誌, vol. 34,
no. 1, 2020, https://www.jstage.jst.go.jp/article/jssmjournal/34/1/34_20/_pdf/-char/ja. • [Ribeiro+ 2016] Ribeiro, Marco Tulio, et al. “ʻWhy Should I Trust You?ʼ: Explaining the Predictions of Any Classifier.” arXiv:1602.04938 [cs, Stat], Feb. 2016. arXiv.org, http://arxiv.org/abs/1602.04938. • [Lundberg+ 2017] Lundberg, Scott M., and Su-In Lee. “A Unified Approach to Interpreting Model Predictions.” Advances in Neural Information Processing Systems 30, edited by I. Guyon et al., Curran Associates, Inc., 2017, pp. 4765‒74. • [Situ+ 2021] Situ, Xuelin, et al. “Learning to Explain: Generating Stable Explanations Fast.” Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Association for Computational Linguistics, 2021, pp. 5340‒55. • [Huang+ 2023] Huang, Shiyuan, et al. “Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations.” arXiv [cs.CL], 17 Oct. 2023, http://arxiv.org/abs/2310.11207. arXiv. 46

ブラックボックス機械学習モデルの判断根拠を説明する技術

ブラックボックス機械学習モデルの判断根拠を説明する技術

More Decks by Yuya Yoshikawa

Other Decks in Research

Featured

Transcript