Upgrade to Pro — share decks privately, control downloads, hide ads and more …

An Effectiveness Metric for Ordinal Classificat...

Avatar for Sho Yokoi Sho Yokoi
September 25, 2020

An Effectiveness Metric for Ordinal Classification: Formal Properties and Experimental Results

2020-09-25, 第12回最先端NLP勉強会
https://sites.google.com/view/snlp-jp/home/2020

Amigo et al., An Effectiveness Metric for Ordinal Classification: Formal Properties and Experimental Results (ACL 2020) の論文紹介です
https://www.aclweb.org/anthology/2020.acl-main.363/

Avatar for Sho Yokoi

Sho Yokoi

September 25, 2020
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. Amigó et al., ACL 2020 An Effectiveness Metric for Ordinal

    Classification: Formal Properties and Experimental Results 読む⼈︓横井祥 (東北⼤/理研AIP) 2020-09-25, 第12回最先端NLP勉強会
  2. どんな論⽂? 2 • 順序分類 (Ordinal Classificaiton) の評価尺度再考 − が順序尺度の分類問題 –

    e.g., {Negative, Neutral, Positive}; {Reject, Weakly Reject, …} − 評価尺度としてよく使われている Acc, 順位相関, etc. はダメそう – 詳細後述 • 提案法 − 「予想の外れ度」を「gold と予測の間に サンプルが⼊る確率 (情報量)」で測る • 提案法は良い性質を満たす − 順序尺度としての要件を満たす − 分類問題としての要件を満たす − クラスの⼤きさの⽐に鋭敏 この間違え⽅ はマズそう (下位1/4の論 ⽂を上位1/4と 予想) この間違え⽅ は許容できる (「だいたい 真ん中くらい の論⽂」)
  3. 前置き 3 • とくに注釈がない限り図表は論⽂からの引⽤です • notation 激しく変更しています • ⽬次 −

    論⽂の簡単なまとめ − 順序分類問題の位置付け – ※ このセクションは読み⼿による補遺 − 論⽂のちょっと丁寧なまとめ – ※「順序分類問題の位置付け」を使ったまとめは読み⼿による補遺
  4. やりたいこと︓順序分類器の評価 5 扱う問題︓順序分類 (Ordinal Classification/Regression) • 予測ラベルに順序構造が⼊った分類問題 − データセット︓ =

    !, ! ! ⊆ × − = {Reject, WeaklyReject, Marginal, WeaklyAccept, Accept} − = {Negative, Neutral, Positive} − NLP で頻出 やりたいこと︓順序分類器の評価 • テストセットの予測ラベル︓* = (A, A, R, WA) • テストセットの真のラベル︓ = (WA, A, WR, WR) • 分類器 * はどの程度 “良い” か︓ * , = ? ↦ Accept evaluation metric どちらの term も 使われる様⼦
  5. • 分類問題として評価︓精度, F1, … * = (WA, , WR, M)

    = (WA, , WR, M) 順序構造が無視される (の⽅がよりもに近い筈なのに…) よく使われている評価尺度はどれも⼒不⾜ 6 = * ′ = (WA, , WR, M) = (WA, , WR, M) ?
  6. • 分類問題として評価︓精度, F1, … * = (WA, , WR, M)

    = (WA, , WR, M) 順序構造が無視される (の⽅がよりもに近い筈なのに…) • ランキング問題として評価︓順位相関, … * = , , , = , , , 当たったかどうかを考えない (右はすべて「当たっていない」けれど満点) よく使われている評価尺度はどれも⼒不⾜ 7 = = > > > > > > > > > > > > * ′ = (WA, , WR, M) = (WA, , WR, M) * ′ = (, , , ) = , , , ? ?
  7. = • 分類問題として評価︓精度, F1, … * = (WA, , WR,

    M) = (WA, , WR, M) 順序構造が無視される (の⽅がよりもに近い筈なのに…) • ランキング問題として評価︓順位相関, … * = , , , = , , , 当たったかどうかを考えない (右はすべて「当たっていない」けれど満点) • 回帰問題として評価︓ラベルを {1, … , 5} に読み替えて MSE, … * = WA, , WR, M = (WA, , WR, M) カテゴリ間が等距離と仮定 (MとWAとAが等間隔という仮定は妥当?) よく使われている評価尺度はどれも⼒不⾜ 8 = = > > > > > > > > > > > > * ′ = (WA, , WR, M) = (WA, , WR, M) * ′ = (, , , ) = , , , * ′ = WA, , WR, M = (WA, , WR, M) ? ? ?
  8. 提案法(アイデア) 10 データ毎の評価 • 予測の悪さ︓訓練事例 (のラベル) が ! と の間に⼊る確率

    • 予測の良さ︓〃情報量 − log • 正解すると嬉しい • 順序関係を考慮 • ラベル間距離の仮定なし データセット全体での評価 • − log をデータ全体で ⾜し合わせて正規化 この間違え⽅はマズい (下位1/4の論⽂を上位1/4と予想) この間違え⽅は許容できる (「だいたい真ん中くらいの論⽂」)
  9. 順序分類はどういう問題か …を考えておくと論⽂が読みやすい 13 • の尺度の類型 − 名義尺度 − 順序尺度 −

    間隔尺度 − ⽐例尺度 • 学習の問題としての類型 − 真のラベルを当てたい (尺度の⼀致を求める問題) − 構造さえ⼀貫していれば良い (尺度の変換を許容する問題)
  10. (の) 尺度の類型 [Stevensʼ46] 14 • 名義尺度 − カテゴリの違いだけに興味 − e.g.

    バラの種類 • 順序尺度 − カテゴリ集合に順序構造が⼊っている − e.g. 柔道の段位 • 間隔尺度 − 距離構造も⼊る,間隔 (引き算) に意味がある − e.g. ⽇付 • ⽐例尺度 − 原点が⼊る,⽐ (割り算) に意味がある − e.g. 重量
  11. 教師あり学習の問題としての類型 15 真の (gold を記録したときの尺度) に興味があるかないか • 真の を当てたい (尺度の⼀致を求める問題)

    − 例︓回帰,数値を予測したい • 構造さえ⼀貫していれば良い場合 (尺度の変換を許容する問題) − 例︓ランキング,* と の⼤⼩関係さえ⼀致していれば良い
  12. 「構造さえ⼀貫していれば良い場合」とは? 16 観測 ↔ 尺度 (カテゴリ名, 数値) の任意性 [Stevensʼ46, etc.]

    • {⽝, 猫} と分類しても {dog, cat} と分類しても良い • ⼩<中<⼤ と分類しても small<medium<large と分類しても良 い − {1,2,3} とラベルがついていても {1,10,200} とラベルが付いていても 構わない − ふたつの対象の⼤⼩関係さえ保存されていれば良い • 摂⽒で記録しても華⽒で記録しても良い − 差の⼤⼩を⽐較できれば良い • キログラムで記録してもグラムで記録しても良い − ⽐の⼤⼩を⽐較できれば良い 呼び⽅ 測り⽅
  13. 名義尺度 順序尺度 間隔尺度 ⽐例尺度 カテゴリの違 いにだけ興味 がある ⼤⼩関係にも 興味がある 差にも興味が

    ある ⽐にも興味が ある 0に意味がある 例 {⽝, 猫} {dog, cat} {1, 2, 3} {1, 10, 200} 摂⽒ 華⽒ キログラム グラム 尺度間に許さ れる変換 全単射 単調増加 ax + b (a>0) ax (a>0) 「構造さえ⼀貫していれば良い場合」とは? 17 対称群の作⽤に対して不変な性質だ け考えたい (名前の付け⽅はどうで も良い) という気持ち [Stevensʼ46] では他の尺度も群 ( および対応する関数の族) で特徴付 けている 同じ観測に対して別の測り⽅をした (別の尺度を⽤いた) としても, それらの尺度は同⼀視したい 尺度同⼠がどういう関数で結びつけ られる場合に同⼀視できるか ⊃ ⊃ ⊃
  14. 名義尺度 順序尺度 間隔尺度 ⽐例尺度 真の を 当てたい 分類 順序分類 回帰

    回帰 精度, F1, … 論⽂の フォーカス 平均⼆乗誤差, … ? 構造さえ 合っていれば OK クラスタリン グ ランキング ランキング (?) ランキング (?) 相互情報量, … Kendallʼs τ, … Spearmanʼs ρ, … Pearsonʼs r, … 順序分類は 「 が順序尺度」かつ「真の を当てたい」問題 18 分類器もgoldと同 じ尺度で測ってほ しい 異なる尺度で測っ ていても良い 尺度の変換を許す (, , ) = ((, ), ) ⼤⼩関係さえ⼀ 致していれば良 い ⽐例していれば 良い 「分けかた」さ え⼀致していれ ば良い ⊃ ⊃ ⊃ ⊃ Acc, τ, MSE が不適切なのはそれはそう
  15. 提案法 20 データ毎の評価 • 予測の悪さ︓ 訓練事例が ! と の間に⼊る確率 ≼

    12345 ≼ ! ( ≼ ! のとき) • 予測の良さ︓〃の情報量,Closeness Information Quantity CIQ ! , ≔ − log ≼ 12345 ≼ ! ( ≼ ! のとき) • 予測の良さ CIQ の推定量 prox 0 CIQ 6 , 7 ≔ −log 6 2 + ∑ 896:; 7 8 (6 ≼ 7 のとき) データセット全体での評価 • Clossness Evaluation Measure (CEM) CEM 8 , ≔ ∑ 0 CIQ ! , ∑ 0 CIQ , クラスが " の訓練データ数 A , ∈ 0,1 となるよう正規化
  16. 検証1︓順序分類の評価尺度が満たすべき要件 21 1. Ordinal Invariance • 順序尺度として尺度の変換に不変 * , =

    * , 2. Ordinal Monotonicity • 他のデータの予測は固定して ひとつのデータの予測が gold に近づくと評価↑ 3. (Class) Imbalance • 「⼤きなクラスに属する に対して予測を誤る」⽅が「⼩ さなクラスに属する に対して予測を誤る」より罪が重い − 相対順位が⼤きく変わる間違いは罪が重い − 要件というより「提案法が満たす性質」を論⽂のために持ち込んだ感 は単調増加 ※ elementwise に適⽤
  17. 名義尺度 順序尺度 間隔尺度 ⽐例尺度 真の を 当てたい 分類 順序分類 回帰

    回帰 精度, F1, … ︖ 平均⼆乗誤差, … ? 構造さえ合っ ていればOK クラスタリン グ ランキング ランキング (?) ランキング (?) 相互情報量, … Kendallʼs τ, … Spearmanʼs ρ, … Pearsonʼs r, … 検証1︓順序分類の評価尺度が満たすべき要件 先ほどの位置付けで理解 22 ⊃ ⊃ ⊃ ⊃ Ordinal Invariance 尺度を単調増加関数で変 換しても同じ評価値にな ってほしい Ordinal Monotonicity 真のyに “近づく” と嬉し い (Class) Imbalance クラスの⼤きさの違いに 鋭敏
  18. 検証2︓評価尺度が満たすべき要件 (実験編) 24 • 評価尺度 (8 , ) は以下の特徴を評価してほしい 1.

    .精度: 各 (" , ) が⼀致 2. .Kendallʼs τ: & と の順序が⼀貫 3. .相互情報量: & と のクラスの⼤きさの⽐の違いに鋭敏 • 良い とは (Coverage)︓ で⾒てシステムの性能が向上 ⇔ Acc/τ/MI全てで性能が向上 • skip システムペア (8 ; , 8 D ) に対して計算できる次のふたつの量が ⾼い相関を持つば良い − 評価尺度 で測ったときに & ! の⽅が良いシステム & ! , − (& " , ) − 「精度・順位相関・相互情報量で測ったときにそのすべてで & ! の⽅が良 いシステム」と評価されるインスタンスの割合 (UIR, Amigóʼ11) – Ill-defined に⾒える.インスタンス毎に を計算できる前提の話だが,Acc 以外は他のインスタンスの予測結果に依存するので.
  19. 名義尺度 順序尺度 間隔尺度 ⽐例尺度 真の を 当てたい 分類 順序分類 回帰

    回帰 精度, F1, … ︖ 平均⼆乗誤差, … ? 構造さえ合っ ていればOK クラスタリン グ ランキング ランキング (?) ランキング (?) 相互情報量, … Kendallʼs τ, … Spearmanʼs ρ, … Pearsonʼs r, … 検証2︓評価尺度が満たすべき要件 (実験編) 先ほどの位置付けで理解 25 ⊃ ⊃ ⊃ ⊃ Kendallʼs τ 順序が⼀貫していると嬉 しい Accuracy A = だと嬉しい Mutual Information クラスの⼤きさの違いに 鋭敏
  20. 検証2︓評価尺度が満たすべき要件 (実験編) 26 • ⼈⼯の * # # でも実際の *

    # # でも Cov は提案法が良い − → 提案法は Acc/τ/MI すべての性質を抑えた評価尺度 − τ, MI あたりは⼗分良いように⾒える
  21. まとめ 27 • 順序分類 (Ordinal Classificaiton) の評価尺度再考 − (1) が順序尺度

    (2) 真のラベルを当てたい設定 – e.g., {Negative, Neutral, Positive}; {R, WR, M, WA, A} − よく使われている評価尺度 (Acc, 順位相関, etc.) はマズそう • 提案法 (分類器をどう評価するか) − CIQ(" , ) := 「訓練事例が" との間に⼊る」という事象の情報量 − CEM(& , ) := CIQ(" , ) の和 (を正規化) • 提案法は次を満たす − Ordinal Invariance: 順序尺度としての性質を反映 − Ordinal Monotonicity: 「真のラベルを当てたい」を反映 − (Class) Imbalance: クラスの⼤きさの⽐に鋭敏 • 提案法は Acc (当てたい), τ (順序尺度), MI (クラス⽐) の組合せと相関 − CEM が向上する ⇔ Acc も τ も MI も向上する
  22. 感想 28 • Take-home message − (1) 尺度の種類 (2) gold

    y を当てたいかどうか を考慮して評価尺度を選 択しよう • PROs − 最近流⾏りの「君たちがやっていることアヤシいよ」系論⽂. 普段は評価尺度界隈で活躍されている著者勢. − 提案法の推定が⼗分軽そう.Instance-wise に計算できるので損失化も 容易. − 尺度の話の勉強の良い機会になりました [Stevensʼ46, 鷲尾&元⽥ʼ98, 神 嶌ʼ09]. • CONs − Class imbalance の導⼊が ad-hoc. − 要件同⼠が violate する事例が構成できるのでこれで final answer 感は ない. − 複数尺度のアンサンブル UIR(Acc, τ, MI) に対する提案法のアドバンテ ージが語られていない.