Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ラベルの順序情報を活用し たAUC直接最適化手法

ラベルの順序情報を活用し たAUC直接最適化手法

Avatar for GO Drive Tech

GO Drive Tech

October 31, 2025
Tweet

More Decks by GO Drive Tech

Other Decks in Technology

Transcript

  1. AI Community 2025.07.17 廣中 栄介 株式会社ディー・エヌ・エー / GO株式会社 / GOドライブ株式会社

    AI技術共有会 ラベルの順序情報を活用し たAUC直接最適化手法
  2. 廣中 栄介 GOドライブ株式会社 AI本部 AI技術開発2部 • 業務内容 ◦ 次世代AIドラレコサービス『DRIVE CHART』のリスク運転検出機能開発

    • 経歴 ◦ 機械工学専攻修士卒 (~2018.3) ◦ 大手車載機器メーカー入社(~2019.10) ▪ ドライバー状態推定の研究開発 ◦ IT・Webベンチャー(~2022.11) ▪ Web/Appの分析、画像認識モデル開発 ◦ AIベンチャー(~2024.1) ▪ 建設業界向けAIシステム開発・ゲームAI開発 ◦ GO株式会社 (2024.2~)、GOドライブ株式会社(2025.9~) ▪ 『DRIVE CHART』の分析・AI機能開発 • SNS ◦ X:https://twitter.com/pensuke_san ◦ kaggle:https://www.kaggle.com/pensukesan 自己紹介 2
  3. ▪ 学会発表との関係性 ▪ 本資料はMIRU2025に投稿・発表した研究成果に関して非公開の DeNA・GO・GOドライブ(※当時はDeNA+GOの2社)の3社勉 強会での説明に使用したものです。 ▪ 学会への投稿・発表前に公開された資料ではありません。 ▪ 所属組織について

    ▪ GO所属時にMIRU2025にて発表した内容ですが、その後会社分 割・転籍に伴い、GOドライブの所属として資料を公開します。 本資料の学会発表との関係性と所属組織について
  4. ▪ 以下のような機械学習タスクを検討する ▪ 深層学習の2値分類タスク ▪ 不均衡なデータセットでのReceiver Operating Characteristic (ROC) 曲線の曲線下の面積(ROC-AUC)を評価指標とする

    ▪ ラベルは元々順序尺度のラベルを持っており、一定の閾値以上か どうかを予測 背景 • ROC-AUC ◦ ROC曲線:縦軸に真陽性率(TPR)・横軸に偽 陽性率(FPR)を取り、閾値に沿ってプロット したもの ◦ ROC-AUC:ROC曲線の曲線下の面積、正例と負 例の予測値の大小関係が正しい順序である確率 を測定する(=ランキング性能を測る指標) 6
  5. 順序尺度とは 尺度 特徴 具体例 名義尺度 単なるカテゴリの名前 性別・電話番号・職業 順序尺度 順序による比較ができる レビュー・満足度・年齢

    間隔尺度 数字の間に等しい距離がある 温度・年代 比例尺度 変数の比や乗除に意味がある 絶対温度・質量・長さ・エネルギー 尺度水準:https://ja.wikipedia.org/wiki/%E5%B0%BA%E5%BA%A6%E6%B0%B4%E6%BA%96 ▪ 尺度水準 ▪ 表の下の尺度はそれ以上の尺度の性質を満たす 7
  6. ▪ 順序尺度の特性 ▪ 分類でも回帰でも学習できるが… ▪ 単なるマルチクラス分類ではラベル間の順序を考慮できない ▪ 回帰手法では非連続な変化を考慮できない ▪ 順序尺度の学習手法を順序回帰(Ordinal

    Regression)という ▪ 深層学習でも順序回帰手法で性能改善が報告されている[4,5,6] 順序回帰 age=20 age=30 age=60 age=10 ◎顔画像年齢推定問題の例 同じ予測値で間違えたとき • CEは各年齢クラスが同じloss • MAEは顔の変化が非連続でも 距離が同じだと同じloss →順序情報を考慮すべき 10
  7. ▪ メリット ▪ 閾値から離れた大きな間違いを削減できる ▪ 順序情報を仮定することでAUC自体が改善される ▪ デメリット ▪ ペアワイズロスのため正例・負例の組み合わせとなり、順序情報

    の仮定も入れるためデータ量が少ない場合に過学習しやすい ▪ 提案手法②は正例・負例内の組み合わせも考慮するため、 データ量の少なさの影響は軽減される ▪ 閾値から近いサンプルは相対的に損失が小さくなるため 分布によっては全体としてAUCが下がる可能性がある 提案手法の期待される効果 22
  8. ▪ 様々なアプローチが考えられるので網羅的に比較実験 順序尺度ラベル+2値分類出力へのアプローチ 手法名 手法タイプ 手法概要 BCE 2値分類 ラベルを2値に変換してBCEで学習 Pairwise

    AUC最大化 ラベルを2値に変換してペアワイズロスで学習 CE 多クラス分類 マルチクラス学習し閾値以上のクラス確率を合計 MAE 回帰 メトリック回帰で学習 SoftLabel 順序回帰 Softlabel[11]でエンコーディングしたラベルを マルチクラス学習し閾値以上のクラス確率を合計 Weighted Pairwise AUC最大化+順序回帰 提案手法① Weighted All-Pairs AUC最大化+順序回帰 提案手法② 25
  9. ▪ 実験の共通設定 ▪ 深層学習+画像認識タスク ▪ backboneエンコーダー:EfficientNetB0 ▪ Optimizer:Adam ▪ Scheduler:CosineAnnealing

    ▪ 学習率・バッチサイズ・epochはタスクに応じて調整 ▪ 各タスク・データセットの詳細はAppendixに 実験設定 26
  10. ▪ ROCAUCの結果で注目すべき点 ▪ 順序情報を付加することで通常のPairwiseより性能が改善 ▪ 画像品質推定では提案手法が既存手法を上回った ▪ 画像品質推定以外ではSoftLabelの性能が良かった 結果抜粋 手法

    手法タイプ 眠気度推定 画像品質推定 年齢推定 BCE 2値分類 0.6642 0.7901 0.9617 Pairwise AUC最大化 0.6351 0.7933 0.9701 SoftLabel 順序回帰 0.6878 0.7830 0.9748 Weighted Pairwise AUC最大化+順序回帰 0.6513 0.7961 0.9717 Weighted All-Pairs AUC最大化+順序回帰 0.6781 0.7975 0.9605 28
  11. [1]Murray, N., Marchesotti, L. and Perronnin, F.: AVA: A large-scale

    database for aesthetic visual analysis, 2012 IEEE conference on computer vision and pattern recognition, IEEE, pp. 2408–2415 (2012). pdf [2]Cortes, C. and Mohri, M.: AUC Optimization vs. Error Rate Minimization, Advances in Neural Information Processing Systems (Thrun, S., Saul, L. and Sch¨olkopf, B., eds.), Vol. 16, MIT Press (2003). pdf [3]Yang, T. and Ying, Y.: AUC maximization in the era of big data and AI: A survey, ACM computing surveys, Vol. 55, No. 8, pp. 1–37 (2022). pdf [4]Niu, Z., Zhou, M., Wang, L., Gao, X. and Hua, G.: Ordinal regression with multiple output cnn for age estimation, Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4920–4928 (2016). pdf [5]Cao, W., Mirjalili, V. and Raschka, S.: Rank consistent ordinal regression for neural networks with application to age estimation, Pattern Recognition Letters, Vol. 140, pp. 325–331 (2020). pdf [6]Diaz, R. and Marathe, A.: Soft labels for ordinal regression, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 4738–4747 (2019). pdf [7]Sulam, J., Ben-Ari, R. and Kisilev, P.: Maximizing AUC with Deep Learning for Classification of Imbalanced Mammogram Datasets., VCBM, pp. 131–135 (2017). pdf [8]Ying, Y., Wen, L. and Lyu, S.: Stochastic online AUC maximization, Advances in neural information processing systems, Vol. 29 (2016). pdf [9]Yuan, Z., Yan, Y., Sonka, M. and Yang, T.: Large-scale robust deep auc maximization: A new surrogate loss and empirical studies on medical image classification, Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3040–3049 (2021). pdf 参考文献① 32
  12. [10]Li, L. and Lin, H.-T.: Ordinal regression by extended binary

    classification, Advances in neural information processing systems, Vol. 19 (2006). pdf [11]Diaz, R. and Marathe, A.: Soft labels for ordinal regression, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 4738–4747 (2019). pdf [12]Waegeman, W., De Baets, B. and Boullart, L.: ROC analysis in ordinal regression learning, Pattern Recognition Letters, Vol. 29, No. 1, pp. 1–9 (2008). pdf [13]Shi, W., Gu, B., Li, X. and Huang, H.: Quadruply stochastic gradient method for large scale nonlinear semi-supervised ordinal regression AUC optimization, Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34, No. 04, pp. 5734–5741 (2020). pdf [14]Ghoddoosian, R., Galib, M. and Athitsos, V.: A realistic dataset and baseline temporal model for early drowsiness detection, Proceedings of the ieee/cvf conference on computer vision and pattern recognition workshops, pp.0–0 (2019). pdf [15]Mag´an, E., Sesmero, M. P., Alonso-Weber, J. M. and Sanchis, A.: Driver drowsiness detection by applying deep learning techniques to sequences of images, Applied Sciences, Vol. 12, No. 3, p. 1145 (2022). pdf [16]Agustsson, E., Timofte, R., Escalera, S., Baro, X., Guyon, I. and Rothe, R.: Apparent and real age estimation in still images with deep residual regressors on appa-real database, 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG2017), IEEE, pp. 87–94 (2017). pdf 参考文献② 33
  13. ROCAUC評価結果一覧表 手法 手法タイプ 眠気度推定 画像品質推定 年齢推定 BCE 2値分類 0.6642 0.7901

    0.9617 Pairwise AUC最大化 0.6351 0.7933 0.9701 CE 多クラス分類 0.6629 0.7435 0.9718 MAE 回帰 0.6484 0.7711 0.9591 SoftLabel 順序回帰 0.6878 0.7830 0.9748 Weighted Pairwise AUC最大化+順序回帰 0.6513 0.7961 0.9717 Weighted All-Pairs AUC最大化+順序回帰 0.6781 0.7975 0.9605 35
  14. ▪ 大きく間違えるサンプルの削減 考察:False Positiveに注目した結果(表) 手法\年代 0~9 10~19 20~29 30~39 40~49

    50~59 BCE 0 1 4 5 13 35 Pairwise 4 1 3 6 11 37 SoftLabel 0 2 1 3 9 39 Weighted Pairwise 0 0 0 1 11 44 Weighted All-Pairs 0 0 0 1 12 45 36
  15. ▪ UTA-RLDDデータセット[14] ▪ 60人の被験者x10分の動画x3段階の眠気状態のデータ ▪ Alert・Low Vigilant・Drowsyの3段階で自身の眠気状態を評価 ▪ 被験者ごとにGroupKFoldされている ▪

    前処理[15] ▪ 先行研究を参考に以下の設定で学習・評価 ▪ dlibで顔領域を64x64で検出 ▪ 動画を5fpsでダウンサンプリング ▪ ランダムに1分間切り出し、単一の眠気度を学習 ▪ CNN+GRUのモデルを使用 ▪ 検証時は10分すべてを予測し、予測結果の最大値を取得 ▪ 閾値はDrowsyを正例、Drowsy未満を負例とした 眠気度推定(UTA-RLDD) 37
  16. ▪ AVAデータセット[1] ▪ 写真コンテストサイトの美的品質スコア ▪ 1~10点で投票形式でスコアがつけられている ▪ 前処理 ▪ 最頻値を使用ラベルとした(同数の場合小さい方)

    ▪ 25万枚あるが、サブサンプリングで訓練・検証2万枚ずつで評価 ▪ 品質6以上を正例・5以下を負例とした ▪ 画像を224x224にリサイズ 画像品質推定(AVA) 38
  17. ▪ APPA-REALデータセット[16] ▪ 顔画像年齢データセット ▪ 実年齢と見かけの年齢(投票)ラベルがつけられている ▪ 訓練4113枚・検証1500枚・テスト1978枚 ▪ 前処理

    ▪ 顔領域検出して回転してクロップしたものを入力とした ▪ ラベルは見かけの年齢の平均値を整数に丸めたものを使用 ▪ 60以上を正例・60未満を負例とした 年齢推定(APPA-REAL) 39