Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】The elephant in the interpretability room...

【論文紹介】The elephant in the interpretability room: Why use attention as explanation when we have saliency methods?

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

January 07, 2021
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. The elephant in the interpretability room: Why use attention as

    explanation when we have saliency methods? Bastings and Filippova, EMNLP 2020 杉本 海人 Aizawa Lab. B4 2021/01/07 1 / 21
  2. Attention Mechanism Attention Mechanism が普及しているのは周知の通り • タスクとして:機械翻訳、言語生成、NLI など、ある単語列から 別の単語列を生成するタスク全般に •

    モデルとして:Attention 付き seq2seq から Transformer (self-attention)、その後の大規模言語モデルへ Attention Mechanism が、タスクに対するネットワークの性能を上げて いることには異論の余地がない 5 / 21
  3. 原理 出力の t − 1 番目の隠れ層 st−1 から t 番目の隠れ層

    st を計算する際に、 入力の隠れ層 h1, ..., hT 全てを考慮する 1) 1 i 番目の出力 si に j 番目の入力 hj がどの程 度寄与するのか定める eij = a(si−1, hj ) を計 算する(関数 a は tanh など) 2 j に関して eij の softmax を取ることで attention weight 𝛼ij を計算する 3 重み付けされた context vector ci = ∑ j 𝛼ijhj を計算し、これと si−1 から si を求める 1さまざまなバリエーションがある https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html 6 / 21
  4. Attention はモデルが正当であることの説明になっているのか? 最近、Attention Mechanism の説明性・解釈可能性に関する論文が多い • "Attention is not Explanation"

    (Jain and Wallace, 2019) では、 attention weight が既存の他の特徴量抽出手法と相関がないこと や、全く異なる attention weight でも同じ予測になることを指摘 • これに追従するような論文2 や、カウンター論文(例えば attention weight の有効性をより綿密にテストすることを提唱3、 attention weight の改良を提唱4、など)がいくつも出ている 2Is attention interpretable? (Serrano and Smith, 2019) 3Attention is not not explanation. (Wiegreffe and Pinter, 2019) 4Towards transparent and explainable attention models. (Mohankumar et al., 2020) 8 / 21
  5. 筆者らの問題指摘 • 既存の attention の解釈可能性に関する研究では、Explanation に よって何を目指しているのか不明瞭 → goal と

    user を明確にすべき • 明確に書かれているわけではないが、現状の研究は goal: どの入力の word が最終的な予測に最も寄与するかを明ら かにすること user: モデルの開発者(≠ 一般の利用者) である 9 / 21
  6. Faithfulness vs. Plausibility • 先程の指摘点は、解釈可能性の評価における Faithfulness と Plausibility の議論 5

    にも密接に関連する • Plausibility(もっともらしさ)とは、その解釈が人間にとって妥 当であるかどうか • Faithfulness(忠実性)とは、その解釈がモデルの "Reasoning Process (推論過程?)" を反映しているかどうか(人間による質的 評価が関わらない) • これら 2 つを明確に区別すべきだとしている 5Towards Faithfully Interpretable NLP Systems: How Should We Define and Evaluate Faithfulness? (Jacovi and Goldberg, 2020) 10 / 21
  7. 具体例 • plausible であるが faithful ではないモデルの(極端な)例: • 正解の入力であれば、説明がランダムな単語列になるのに対し、 不正解の入力であれば、説明がランダムな記号列になるモデル •

    HCI コミュニティで行われるようなユーザーテストを行うと、正 解の方が説明がそれっぽく見えるのでユーザーが納得する可能 性があり plausible であることになるが、いずれの入力でもラン ダムなトークンを使って説明をしているので推論過程を表して いるとは言えず faithful ではない 11 / 21
  8. Faithfulness についてもう少し... (Jacovi and Goldberg, 2020) は既存研究が行っている Faithfulness に関 する

    3 つの Assumption(仮定)をまとめている6 1 2 つのモデルが同じ予測をすることは、2 つのモデルが同じ推論 過程を用いることと等価 2 あるモデルが似たような入力に対して似たような予測をするこ とは、あるモデルが似たような推論過程を用いることと等価 3 入力の場所によって推論過程にどの程度影響を与えるかは異な り、その寄与は互いに独立である attention のヒートマップを説明として使っている論文は、3 番目の仮 定に立脚している 6もっとも、筆者らはあるモデルが faithful か否かという二元論には否定的 12 / 21
  9. 元の論文に戻ると... • 現状の attention による説明のゴールである「モデルの開発者が、 どの入力の word が最終的な予測に最も寄与するかを明らかにす ること」は、Plausibility というよりも

    Faithfulness が対象である • このような具体的な目的意識の下では、Attention weight よりも Saliency Methods(後述)を説明に使うべきだという主張 13 / 21
  10. Saliency Methods • saliency とは元々は脳神経科学、のちに Computer Vision に導入 された概念 •

    人間の脳は、目に映る映像から目立つ (salient) 部分を瞬時に特定 できる • 特徴統合理論(Treisman et al., 1980): 輝度や色などの特徴量か ら feature map を作り、それを統合することで saliency map を作 成し、その map の輝度値が最も高い箇所に注意が向けられる7 • 転じて、機械学習の文脈では、モデルが出力する際に入力のどこ が目立つかを調べるという意味で Saliency Methods と呼ぶ (Attribution Methods などと呼ぶこともある) 7http://www.kecl.ntt.co.jp/people/kimura.akisato/pdf/sip2010presentation.pdf 14 / 21
  11. NLP における Saliency Methods • NLP では、勾配(一回微分)を使った Gradient-based methods が

    初期に提案された8 • 入力の単語列 x1:n = (x1, ..., xn )、モデルを表す関数 fc (x1:n ) に対し, ∇xi fc (x1:n ) を各単語 xi に関して計算する 9(スコアなら L2 ノルム) • 代わりに 勾配 × 入力である ∇xi fc (x1:n ) · xi を計算するもの 10 や、 さらなる改良 11 など 8Visualizing and Understanding Neural Models in NLP (Li et al, 2016) 9実質的には誤差逆伝播の値を取ること? 10Extraction of salient sentences from labelled documents (Denil et al, 2015) 11Axiomatic Attribution for Deep Networks (Sundararajan et al., 2017) 15 / 21
  12. 具体例(上手くいかない例) "I hate the movie though the plot is interesting."

    正しく very negative に判定できるモデルに もかかわらず、gradient は though 以下にば かり大きな値が出る なお,though 以下のみでこのモデルを動か すと positive に判定される(なので、faithful な説明にはなっていないとも言える) 17 / 21
  13. Gradient-based Methods 以外の Saliency Methods • Propagation-based methods • Back

    Propagation する際に特殊な計算を行うことで、出力が入力 の各部分とどの程度関連があるのかをスコア付けする 12 • Occlusion-based methods • 入力の各部分を排除 (Occlusion) した時に出力がどの程度変化す るのかでスコア付けする 13 。最も単純には fc (x1:n ) − fc (x1:n|xi =0 ) • 実装は簡単だが n + 1 回計算が必要 12Evaluating Recurrent Neural Network Explanations (Arras et al., 2019) など 13ERASER: A Benchmark to Evaluate Rationalized NLP Models (DeYoung et al., 2020) など 18 / 21
  14. なぜ筆者らは Saliency Methods を推すのか? • Saliency Methods は、入力のどの部分が予測に寄与するかを調べ るという明確なゴールを持っている。また、ネットワークの計算 パス全体を反映してスコア計算するものが多い。

    • Attention weights は、ネットワークのある一部分において、入力 側にある representation のどこに注意するかを反映しているだ け。しかもその representation は他の入力の結果が既に混ざって いる可能性もある(seq2seq の後の方の hidden state など) 。 • したがって、 「モデルの開発者が、どの入力の word が最終的な予 測に最も寄与するかを明らかにすること」が目的なら Saliency Methods を使うべき 19 / 21
  15. 補足 • そもそもモデルの説明ではなく Attention の役割自体を調べると いう目的なら使うべき 14 • この論文で扱ったのとは異なる user

    や goal が対象の説明なら使 うべき • 学習された attention weight を使って文章にマーカーを引いた文では、そ うでないマーカーよりも、人間がより速く文書分類をできるようになっ た 15 というような plausible な説明も考えられる • Saliency の方にも様々な課題が指摘されている(筆者らは 問題 点が少ないから推しているというわけではない) 14ベクトル長に基づく自己注意機構の解析 https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B4-5.pdf など 15Do Human Rationales Improve Machine Explanations? (Strout et al., 2019) 20 / 21
  16. 感想など • NLP における Saliency Methods の良いまとめになっている • 説明の goal

    と user を明確にすべきという主張はなるほどと感 じた • Faithfulness vs. Plausibility の議論は、解釈可能性に関わる研究を していなくても、モデルの結果の具体例を 示す / 見る 時に意識 したい... • まだ読めていないが、Saliency Methods が上手くいっていないこ とを指摘する論文 16 が面白そうだった -> 1 つの手法に固執するのは良くなさそう 16Evaluating Attribution Methods using White-Box LSTMs (Hao, 2020) 21 / 21