NeurIPS 2022 論文読み会(Is Out-of-Distribution Detection Learnable?)

2023/02/28 BCG X GENICHIRO SHIMIZU(清水源一郎) Is Out-of-Distribution Detection Learnable?
NeurIPS2022 論文読み会

2 清水源一郎 Data Scientist BCG, DigitalBCG Japan, BCG X
Genichiro Shimizu おことわり • 本資料・議論内容は、私的な有志の勉強会を目的としたものであり、会社としての発表ではございません。 • 記載内容については万全を期しておりますが、厳密な正確さを保証するものではございません。 • 本資料の内容は特にことわりがない場合、下記出典に基づきます。 – 文献タイトル : Is Out-of-Distribution Detection Learnable? – 著者 : Zhen Fang, Yixuan Li, Jie Lu, Jiahua Dong, Bo Han, Feng Liu – 掲載誌 : 36th Conference on Neural Information Processing Systems (NeurIPS 2022), arXiv:2210.14707 [cs.LG] – リンク : https://doi.org/10.48550/arXiv.2210.14707

3 論文サマリー Zhen Fang, et al. Is Out-of-Distribution Detection Learnable?
36th Conference on Neural Information Processing Systems (NeurIPS 2022: Outstanding Papers) 未解決問題であるOOD検出の学習可能性について理論的に調査論文の目的 • いくつかの場面でOOD検出が理論的に学習可能になる条件を初めて発見 • 既存OOD検出モデルの成功を理論的に支持主要な結果 Out-of-Distribution(OOD) 検出 • 教師あり学習の分類問題において、学習時に登場しないラベルのデータを判別するタスク – モデルの信頼性向上への期待 – 学習データ(ID)については、クラスラベルを予測 • OOD検出モデルは複数提案されている背景 Source: Generalized Out-of-Distribution Detection: A Survey(arXiv:2110.11334)

4 研究分野の対象範囲 • 意味論的に未知のクラスを検出する • IDクラスは１クラス、多クラス共に扱う • IDデータについては、各クラスラベルの予測も行う •
教師あり学習の枠組みで実施 – Outlier Detection(異常検知)は与えられた全データの中からOODを検出する(教師なし) Out-of-Distribution (OOD) 検出 Source: Generalized Out-of-Distribution Detection: A Survey(arXiv:2110.11334)

5 Source: 1. A Unified Survey on Anomaly, Novelty, Open-Set,
and Out-of-Distribution Detection: Solutions and Future Challenges(arXiv:2110.14051) • 各IDクラスへの分類確率のスコア化によるOOD検出アルゴリズムが最も有名 – (例)ソフトマックス関数による予測値が閾値以下のものをOODと分類 OODの代表的なアルゴリズム例1 研究のモチベーション OODの研究状況経験的にOODモデルが多数開発されている一方で理論的な研究は極めて少数｢どのような場合にOOD検出が学習可能になるのか？｣リサーチクエスチョン分類確率犬・猫・魚の3クラスOOD分類モデル Soft max 0.40/0.30/0.30 確信度低→OOD 0.99/0.01/0.00 確信度高→ID・犬

6 Source: 1 "A theory of the learnable" Valiant, L.
G. (1984). Communications of the ACM 1984 pp1134-1142.. そもそも「学習ができる」とは？ →Probably Approximately Correct(PAC)学習理論1 • MLにおけるPAC学習可能性:「データのドメインとMLモデル集合が与えられた際に、訓練データを増やすごとに, より汎化誤差の小さいモデルを選択できるような学習アルゴリズムが存在する」 PAC学習理論でOODの学習可能性問題に挑戦 • PAC学習理論に基づくOOD学習可能性を定義 – 特徴量XI , ラベルyI =(1~K)からなるID空間と特徴量XO ,ラベルyO =K+1のOOD空間の結合をドメイン – IDデータに対する誤差とOODデータに対する誤分類リスクの加重平均を汎化誤差 • 現実的ないくつかのドメイン, モデル空間のシナリオにおいてPAC学習可能となる条件を探索 – 無制約ドメイン – IDとOODが分離しているドメイン – IDが有限なドメイン研究手法

7 無制約なドメインでは、学習が不可能な条件である不可能性定理が見つかるのみ - 万能OOD検出アルゴリズムを期待すべきではない

8 • 分離空間: ID空間とOOD空間に重なりがない、つまり明らかにOODデータとIDデータが異なるドメイン • 全結合NN(FCNN)やソフトマックスによるスコアリング関数空間など、一定の表現力を持つモデル空間 • 入力データ集合が有限なことが学習可能の必要十分条件分離空間＋表現力の高いモデルのシナリオ特定のドメインとモデル空間では学習可能な必要十分条件が存在
• IDデータが有限である空間、学習データが限られる多くの場合に成立 • Compatibilityが成立するモデル空間がOOD学習可能なことの必要十分条件 – Compatibility：OOD,IDの誤分類リスクを共に最小にするモデルが存在すること • 直観的な解釈は難しいが、特定のデータセットでの学習という現実的な場面においてOODの学習可能性を示唆有限IDデータシナリオ

9 Source:1. A Baseline for Detecting Misclassified and Out-of-Distribution Examples
in Neural Networks(arXiv:1610.02136) 2. Energy-based Out-of-distribution Detection(arXiv:2010.03759 ) 分離空間における学習可能性で既存OOD検出モデルの成功を理論的に支持 • FCNN+softmax等のスコアリング関数を利用した表現力の高いアーキテクチャ – Softmax関数の利用: A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networksse1 – OOD検出により適したエネルギースコアリング関数の利用: Energy-based Out-of-distribution Detection2 • IDとOODが意味的に大きくことなる分離空間とみなせる – 例: IDデータ: CIFAR-10(乗り物・動物), OODデータ: MNIST, 風景, ランダムノイズ • 特徴量画像データは255階調の有限ドメイン IDと大きく異なるOOD画像検出タスクにおいて、既存モデルが理論的に学習可能

10 まとめ所感 • OODに対する分類が困難であることは想定通りであったが、難解な条件にとどまらずFCNN+softmaxによる学習可能性など実用的な解にたどり着いていることが大きな成果であると言える • AIの社会実装において信頼性の向上は重要なテーマになるため、 OOD検出の実装の可否を理論的に研究するスキームを提供したことは意義深いと感じた
• 本論文を足掛かりにOOD検出分野が発展し高性能なモデルが登場することを期待したい手法の限界・将来の発展性 • 現状では、IDとOODの分布が近いような問題については学習可能性が未解決であり、現実世界では適用範囲は限定的である論文の貢献 • ODD検出の学習可能性を扱うPAC学習理論を初めて提唱 • いくつかのシナリオにおいて、OOD検出が学習可能となる必要十分条件を発見し、既存の研究成果を支持

NeurIPS 2022 論文読み会(Is Out-of-Distribution Detec...

NeurIPS 2022 論文読み会(Is Out-of-Distribution Detection Learnable?)

gshimizu

Other Decks in Technology

Featured

Transcript

2023/02/28 BCG X GENICHIRO SHIMIZU(清水源一郎) Is Out-of-Distribution Detection Learnable?

2 清水源一郎 Data Scientist BCG, DigitalBCG Japan, BCG X

3 論文サマリー Zhen Fang, et al. Is Out-of-Distribution Detection Learnable?

4 研究分野の対象範囲 • 意味論的に未知のクラスを検出する • IDクラスは１クラス、多クラス共に扱う • IDデータについては、各クラスラベルの予測も行う •

5 Source: 1. A Unified Survey on Anomaly, Novelty, Open-Set,

6 Source: 1 "A theory of the learnable" Valiant, L.

7 無制約なドメインでは、学習が不可能な条件である不可能性定理が見つかるのみ - 万能OOD検出アルゴリズムを期待すべきではない

9 Source:1. A Baseline for Detecting Misclassified and Out-of-Distribution Examples