論文紹介 : Beyond trivial counterfactual explanations with diverse valuable explanations

Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 論文紹介 yusumi

Abstract 2 Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations
機械学習における反実仮想説明 ◼ 反実仮想説明モデルの予測値を変更する際に入力の摂動方法を説明する ML Model ML Model Input Output Input Counterfactual Output Perturb

Abstract 3 Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations
本論文の提案 ◼ 反実仮想説明を Computer Vision の世界に適用モデルの予測値と入力画像の摂動に着目 ◼ Diverse Valuable Explanations (DiVE) の提案モデルの予測値を変更した際に多様的な反実仮想説明を出力

Introduction Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 4
反実仮想説明が満たすべき制約 1. Validity : 予測値が変化するような摂動 2. Proximity : 元画像となるべく近い摂動 3. Sparsity : 摂動箇所が少ない 4. Diversity : 多様的な摂動

先行研究 1. Validity : 予測値が変化するような摂動 2. Proximity : 元画像となるべく近い摂動 3. Sparsity : 摂動箇所が少ない 4. Diversity : 多様的な摂動 xGEM [1] 1. のみ考慮 Black box モデルの分類器の挙動を理解するために提案されたモデル [1] JOSHI, Shalmali, et al. xgems: Generating examplars to explain black-box models. arXiv preprint arXiv:1806.08867, 2018.

先行研究 1. Validity : 予測値が変化するような摂動 2. Proximity : 元画像となるべく近い摂動 3. Sparsity : 摂動箇所が少ない 4. Diversity : 多様的な摂動 1.～3. を考慮 PE [2] モデル分類器の挙動に反実仮想説明を適用 [2] S. Singla, B. Pollack, J. Chen, and K. Batmanghelich. Explanation by progressive exaggeration. In International Conference on Learning Representations, 2020.

先行研究 1. Validity : 予測値が変化するような摂動 2. Proximity : 元画像となるべく近い摂動 3. Sparsity : 摂動箇所が少ない 4. Diversity : 多様的な摂動 1.～4. を考慮提案手法の DiVE

Related Work 8 機械学習モデルの説明手法 Beyond Trivial Counterfactual Explanations with Diverse
Valuable Explanations ◼ 説明可能な AI (eXplainable AI : XAI) は 2 種類に分けられる → ブラックボックス型, トランスペアレント型

Related Work 9 機械学習モデルの説明手法 ◼ 反実仮想説明の一般的な位置づけ → 入力データの予測結果を摂動させた場合の Counterfactual を多数生成する
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Proposed Method 10 DiVE の概要 Beyond Trivial Counterfactual Explanations with
Diverse Valuable Explanations 観測データの摂動潜在変数の摂動提案手法 ① 提案手法 ② Fisher 情報量による摂動変数の決定

Proposed Method Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations
12 潜在変数の摂動 DiVE は入力変数の潜在空間を摂動させて Counterfactual を生成画像特徴の摂動が目的 beta-TCVAE [3] を利用した潜在空間の学習画像の特徴が潜在空間上で分離されるように学習する VAE モデル潜在変数の各次元が顔の向きや表情を保持できる [3] CHEN, Ricky TQ, et al. Isolating sources of disentanglement in variational autoencoders. Advances in neural information processing systems, 2018, 31.

Proposed Method 13 損失関数の定義入力画像期待出力 Counterfactual ML モデル潜在変数の摂動
生成数 Validity Proximity Sparsity Diversity 正則化係数 Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Proposed Method 14 Validity Loss の定義 Decoder からの出力 Counterfactual 入力画像
予測値が期待する出力となるように潜在空間のノイズを摂動 Cross Entropy 損失 Reparameterization trick Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Proposed Method 15 Proximity Loss, Sparsity Loss の定義 Beyond Trivial
Counterfactual Explanations with Diverse Valuable Explanations Proximity Loss Sparsity Loss 元画像となるべく近くなるように摂動摂動箇所が少なくなるように摂動

Proposed Method 16 Diversity Loss の定義 Beyond Trivial Counterfactual Explanations
with Diverse Valuable Explanations ノイズの摂動を多様化させるノイズ同士のベクトル類似度 (内積) を小さくする

Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations
18 Beyond trivial explanations 髪の有り無しが Not bald に最も寄与している特徴量 Trivial Counterfactuals Non-Trivial Counterfactuals ◼ ML モデルは予測に寄与する特徴量ほど摂動しやすい → bias (偏り) が存在！ Trivial Counterfactual → Non-Trivial Counterfactual 髪の特徴以外を摂動させてモデルに Not bald と判定させる予測に寄与する潜在特徴を摂動予測に寄与しない潜在特徴を摂動

Proposed Method 19 DiVE_Fisher Beyond Trivial Counterfactual Explanations with Diverse
Valuable Explanations ◼ Non-Trivial な Counterfactuals を生成させる Fisher 情報行列の導入 ◼ 𝑭 の性質上, 対角成分は潜在特徴の各次元の相対的な影響度を表す ◼ Non-Trivial な説明をするために、影響力の高い次元の摂動を抑制させる

Proposed Method Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations
20 DiVE_FisherSpectral Fisher 情報行列を元に摂動させる潜在特徴を決定する Spectral Clustering による摂動変数の決定摂動させる潜在特徴が 1, それ以外が 0 となるベクトルをクラスター毎に生成摂動ノイズベクトルの生成相互作用の関係にある潜在特徴同士をまとめて摂動させることができる

Experimental Results 21 DiVE を 4 つの基準で評価 1. Non-Trivial Counterfactual
の有効性の 2. データセットに含まれる bias の検出 3. 潜在空間内の Proximity の評価 4. Sparsity の評価 Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Experimental Results 22 使用するデータセットと比較モデル Beyond Trivial Counterfactual Explanations with Diverse
Valuable Explanations ◼ 使用するデータセット ➢ CelebA dataset : 有名人の顔画像を 178×218 ピクセルで 202,599 枚集めたデータセット ➢ Synbols dataset : Unicode 標準の手書き文字をまとめたデータセット ◼ 比較モデル ➢ xGEM [1] : Black box モデル分類器の挙動を理解するために提案されたモデル ➢ PE [2] : Black box モデル分類器の挙動に反実仮想説明を適用 [1] JOSHI, Shalmali, et al. xgems: Generating examplars to explain black-box models. arXiv preprint arXiv:1806.08867, 2018. [2] S. Singla, B. Pollack, J. Chen, and K. Batmanghelich. Explanation by progressive exaggeration. In International Conference on Learning Representations, 2020.

23 Beyond trivial explanations non-trivial counterfactuals rate 学習済み ML モデルと oracle モデル (VGGFace2) の予測結果を比較 ML モデルが期待予測かつ oracle モデルが入力データと同じ予測結果であれば成功 (ML の予測 ≠ oracle の予測) Non-Trivial Counterfactuals の判定方法潜在空間内の Counterfactual 同士の類似度右上に行くほど良い性能を表す学習データに無いデータ学習データに含まれるデータ

24 Validity and bias detection データセットに bias (偏り) が存在する場合の反実仮想説明を検証する CelebA データセットから 2 種類のサブデータセットを作成 ① unbiased dataset バイアスの無いデータ ② biased dataset 男性の顔画像を笑顔, 女性の顔画像を笑顔で無い画像に統一 ※性別は oracle モデル (VGGFace2) で判定反実仮想説明がデータの bias を検出できることを示す

25 Validity and bias detection ① unbiased dataset を使用した時の反実仮想説明 smile pred male pred smile の予測確率を上昇させても male 確率に変化無し → bias は検出されない入力画像 Counterfactuals

26 Validity and bias detection ② biased dataset を使用した時の反実仮想説明 smile pred male pred smile の予測確率を上昇させると male の確率が増加 → bias の検出！入力画像 Counterfactuals

27 Counterfactual Explanation Proximity 反実仮想説明の Proximity を FID で評価する ※ FID (Frechet Inception Distance) : 生成された画像の品質を評価するためによく使われる2つの画像データセット間の類似性の尺度 Present MLモデルが対象属性に対して 0.9 以上の確率で出力する説明 Absent MLモデルが対象属性に対して 0.1 より低い確率で出力する説明 Overall 予測値が期待出力に収まった割合

28 Counterfactual Explanation Sparsity

Limitation and Future work Beyond Trivial Counterfactual Explanations with Diverse
Valuable Explanations 29 まとめと課題まとめ ◼ 画像データを適用した反実仮想説明を提案 ◼ 反実仮想説明を通じて ML モデルのバイアスを検出する手法を提案 ◼ 分離可能な潜在空間の学習が Sparsity を向上させる今後の課題 ◼ Fisher クラスターの最適な数 ◼ VAE と OOD の最適化なハイパラ探索 ◼ カテゴリデータの摂動方法

Appendix Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 30
再構成誤差の工夫

論文紹介 : Beyond trivial counterfactual explanatio...

論文紹介 : Beyond trivial counterfactual explanations with diverse valuable explanations

yusumi

More Decks by yusumi

Other Decks in Research

Featured

Transcript

Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 論文紹介 yusumi

Abstract 2 Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Abstract 3 Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Introduction Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 4

Introduction Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 5

Introduction Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 6

Introduction Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 7

Related Work 8 機械学習モデルの説明手法 Beyond Trivial Counterfactual Explanations with Diverse

Related Work 9 機械学習モデルの説明手法 ◼ 反実仮想説明の一般的な位置づけ → 入力データの予測結果を摂動させた場合の Counterfactual を多数生成する

Proposed Method 10 DiVE の概要 Beyond Trivial Counterfactual Explanations with

Proposed Method 11 DiVE の概要 Beyond Trivial Counterfactual Explanations with

Proposed Method Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Proposed Method 13 損失関数の定義入力画像期待出力 Counterfactual ML モデル潜在変数の摂動

Proposed Method 14 Validity Loss の定義 Decoder からの出力 Counterfactual 入力画像

Proposed Method 15 Proximity Loss, Sparsity Loss の定義 Beyond Trivial

Proposed Method 16 Diversity Loss の定義 Beyond Trivial Counterfactual Explanations

Proposed Method 17 DiVE の概要 Beyond Trivial Counterfactual Explanations with

Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Proposed Method 19 DiVE_Fisher Beyond Trivial Counterfactual Explanations with Diverse

Proposed Method Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Experimental Results 21 DiVE を 4 つの基準で評価 1. Non-Trivial Counterfactual

Experimental Results 22 使用するデータセットと比較モデル Beyond Trivial Counterfactual Explanations with Diverse

Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

Limitation and Future work Beyond Trivial Counterfactual Explanations with Diverse

Appendix Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 30