論文紹介「Evaluation gaps in machine learning practice」と、効果検証入門に関する昔話

論⽂紹介「Evaluation gaps in machine learning practice」と、効果検証⼊⾨に関する昔話 2025年9⽉18⽇⽩⾦鉱業
Meetup Vol.20＠六本⽊⾼柳慎⼀ボストンコンサルティンググループ BCG X プリンシパル

2 Copyright © 2025 by Boston Consulting Group. All rights
reserved. ⾃⼰紹介⾼柳慎⼀ BCG X プリンシパル主な担当分野・役割 • ⽣成AIチームのコアメンバー得意な領域 • 機械学習、ソフトウェア・AI開発、数理モデリング略歴 • リクルート、LINE、Uzabaseなどを経て2022年にBCGに⼊社 • MLエンジニア・Data Scientistとして15年以上のプロフェッショナル経験を保有 • 消費者、マーケティング、官公庁など様々な業界でのAI活⽤を経験過去の経歴 • 総合研究⼤学院⼤学複合科学研究科統計科学専攻博⼠課程修了 • 徳島⼤学デザイン型AI教育研究センター客員准教授 • 情報処理学会ビッグデータ研究グループ運営幹事 AI有識者としての活動1,2,3 1. MIT Technology Review：バイブコーディングの衝撃——AI駆動開発が迫るIT業界の大転換 2. 日経ビジネス：DeepSeekの驚異中国製AIの実力を緊急解説 3. 日本経済新聞：韓国AI、米中の間隙突くアジア・中東展開 KTはタイ語モデル供給プロフィール

reserved. ボストンコンサルティンググループの概要⽇本に5拠点: 東京、名古屋、⼤阪、京都、福岡以上 100 ⼈ 33,000 オフィスヶ国以上 50 所在国スタッフアジア太平洋ヨーロッパ・中東、南⽶、アフリカ北⽶出所: ボストンコンサルティンググループ

reserved. 本⽇の内容 ❶ 論⽂紹介 ❷ 効果検証⼊⾨に関する昔話（注）本資料・議論内容は、私的な有志の勉強会を⽬的としたものであり、会社としての発表ではございません（注）以下は、下記論⽂からの引⽤です Hutchinson, Ben, et al. "Evaluation gaps in machine learning practice." Proceedings of the 2022 ACM conference on fairness, accountability, and transparency. 2022.

reserved. 1: INTRODUCTION 機械学習(ML)モデルを実世界で使⽤する際、そのモデルがユースケース・アプリケーション・エコシステムに適しているかを判断することは責任あるAI・ビジネスにおいて極めて重要判断には利害・責任などの幅広い要因の考慮が必要しかし実務でのMLモデル評価は狭い範囲の”脱⽂脈化”された予測精度にのみ焦点が当てれられている理想的な評価の広さと、実際の評価の狭さとの間に評価ギャップの存在背景と問題意識コンピュータビジョン（CV）と⾃然⾔語処理の主要な会議から抽出した論⽂から、少数の評価⼿法にのみ焦点が当てられている実態を実証使⽤される指標とテストデータ分布を考慮することで、どの側⾯が評価されて(いる|いない)を明らかにし、 ML分野での評価に関する暗黙の前提を解明⽬的

reserved. 2: IDEALS OF ML MODEL EVALUATION 評価を学習器/応⽤中⼼で分けて考える図1 評価 Data (Training + Tunning) Hyper - parameters Compute resources Learner Model provenance Data (Evaluation) Model Evaluation Metrics Model evaluation Application of model Ecosystem of model use Application-centric evaluations Learner–centric evaluations 学習器中⼼（Learner-centric）応⽤中⼼（Application-centric）⽬的優れた学習器の識別、モデル単体の性質解明 Understand(Learner) エコシステムでの、モデルの引き起こす影響の理解 Understand(Ecosystem + Model) 学術的ゴール科学あるいは⼯学研究としての知識拡張主として⼯学的⽬標（安全性・コスト効率・規制適合）の達成妥当性内部妥当性 • データ分布シフトや外れ値耐性外部妥当性 • ⼊⼒に対する摂動 • センシティブ属性への振舞い（公平・安全性）

reserved. 3: ML MODEL EVALUATIONS IN PRACTICE 実証研究の結果(論⽂195の本分析) 学習器中⼼の考え⽅と、研究での評価が整合的であるという前提で、以下を指摘 • モデル挙動の具体例やエラー解析が⽋如 • 頻出指標が“誤りタイプ”に対し差を⼊れていない – Cost Sensitiveでない (TP=TN) • 古いテストデータ使⽤が常態化し、社会・⾔語の変化を捉えない • I.I.Dでのテストが常態化・データ分布の不確実性の問いを⼀般に扱っていない • 精度と資源効率などのトレードオフ議論がない分析から得られた⽰唆 76 74 48 44 25 20 40 60 80 0 論⽂数 F-Value/ Overlap Precision AUC Recall Accuracy ML 研究コミュニティにおける評価報告の実態把握を⽬的に以下の論⽂を分析 • NLP: 97本 • CV: 98本

reserved. 4:GAPS AND ASSUMPTIONS IN COMMON EVALUATION PRACTICES (1/3) 研究評価実務・学習器中⼼が置いている仮定と応⽤中⼼との評価ギャップ仮定評価ギャップ 1: 結果主義 (Consequentialism) ⾏為の良し悪しが結果のみに依存、測定可能な⼈間への効⽤(Utility)や将来影響のみが可視化され、データ作成・調達や受容過程といったプロセス上の論点が範囲外に 1: 来歴 (Provenance) データの来歴、労働環境、ライセンス、学習の外部コストなどモラルやプロセスの考慮不⾜ 2: 社会的責任 (Social Responsibilities) モデルが社会的規範や期待（⼈権、包摂、説明責任など）をどのように満たすかの評価不⾜ 2: ⽂脈の抽象化 (Abstractability from Context) 評価を⼊⼒ X・予測 Ŷ・“真値” Yの三つの変数に還元、エコシステムの仕組み・⼈間の介在・副作⽤などは⾒ない 3: システム考慮 (System Considerations) フィードバックループ、⼈間の関与、エネルギーや⻑期影響などシステム的な要素の⾒落とし 4: 解釈学的認識論 (Interpretive Epistemics) 社会現象を含む状況でも、「真の」値Y = yは客観的に単⼀で知ることができると誤認(社会・⽂化的に依存性を忘れ、解釈が必要ないと捉えてしまう)

reserved. 4:GAPS AND ASSUMPTIONS IN COMMON EVALUATION PRACTICES (2/3) 研究評価実務・学習器中⼼が置いている仮定と応⽤中⼼との評価ギャップ仮定評価ギャップ 3:⼊⼒近視 (Input Myopia) 予測Ŷを出した後は、⼊⼒Xを評価で使わないという⽴場（評価の有⽤性がŶとYの関係みに依存するとみなす） 5: 分解評価 (Disaggregated Analyses) 属性Xごとの分解や感度分析、安全でクリティカルなエッジケースの検討が⽋落しやすい 4: 計量可能性 (Quantifiability) 影響（utility）が「個々のケースで数値化でき、それらを平均等で集約できる」場合、単⼀統計量に還元されやすく、それが”リーダーボード主義”によって強化される 6: ⽐較不能性 (Incommensurables) 異なる種類の影響を同じ物差しで⽐較し、特定集団の影響や⽴場が不当に⼩さく扱われる可能性 5: 不正解等価性(Failures Cases Are Equivalent) 誤りの種類や⽅向の違いが区別されず、分類で「正解/不正解」、回帰で「誤差の⼤きさ」を同等に扱う慣⾏ 7: 被害・利益多様性 (Disparate harms and benefits) 同じ誤りでも影響の⼤きさが異なるという点が評価に載りにくい (多クラス分類のクラス間、回帰の⽅向) 6: テストデータの妥当性(Test Data Validity) テストデータ上での精度が、応⽤での精度の良い推定になる 8: データドリフト(Data Drifts) 分布の変化やフィードバック効果により、テストデータの分布と実データ分布が乖離し、信頼性を過⼤評価し得る

reserved. 4:GAPS AND ASSUMPTIONS IN COMMON EVALUATION PRACTICES (3/3) この6つの仮定を認めると、皆が信じる世界(机上テストで良ければALL OK)に辿り着く

reserved. 5: CONTEXTUALIZING APPLICATION-CENTRIC MODEL EVALUATIONS (1/3) 評価ギャップとその乗り越え⽅評価ギャップその乗り越え⽅ 1: 来歴 (Provenance) 結果だけでなくプロセスも評価 • データ作成⽅法など、モデル開発プロセス⾃体も評価 • 開発ライフサイクルの⽂書化・モデルとデータの透明性 • 組織の美徳（virtues）を踏まえたML 2: 社会的責任 (Social Responsibilities) 義務の中⼼化 (MLシステムの間接的な影響考慮) • 社会的‧倫理的な影響評価プロセスの実施 • ⼈権・社会倫理的影響評価や監査 • プライバシー漏えいの可能性評価 3: システム考慮 (System Considerations）⽂脈を”⾮周辺化”する • 外部性(計算資源等)や⼈・技術の相互作⽤を考慮 • 精度だけではなく安定性の価値認識 • ポータビリティの罠(AUC等の単⼀指標の過信)を回避 4: 解釈学的認識論 (Interpretive Epistemics) 主観性の可視化 • タスクに内在する主観性を認め、主観性が異なる明⽰的モデリングを実施 • アノテータの⽴場に基づくラベル分解と評価

reserved. 5: CONTEXTUALIZING APPLICATION-CENTRIC MODEL EVALUATIONS (2/3) 評価ギャップとその乗り越え⽅評価ギャップその乗り越え⽅ 5: 分解評価 (Disaggregated Analyses) ⼊⼒差の尊重 • 誤分類の影響が属性で⾮対称とし、⼊⼒の各領域・サブグループで評価 • 裾や外れ値の評価、⼊⼒感度テストも実施 6: ⽐較不能性 (Incommensurables) スカラー値での評価の克服 • 単⼀値への還元を回避し、複数指標・分布を併記して評価 • 不確実性(⽋損、測定・サンプリング誤差) 、社会等への質的影響の明⽰ • 集約のみならず図⽰、異種量の⾮集約、複数の代表値） • 利⽤者が同等の利益・被害を得るとは限らない点に留意 7: 被害・利益多様性 (Disparate harms and benefits) 誤判定の差異を尊重 • FPとFNが⽐較不能な場合は分けて報告、可能なら適切に重付け • 多クラスではコスト⾏列、回帰ではMSEなどの誤差のバケット別に報告 8: データドリフト (Data Drifts) テストデータ品質の検証 • データの来歴・分布・既知バイアスの明⽰ • サンプルサイズ⼩・バイアス有等の不確実性にはベイズ⼿法の活⽤

reserved. 5: CONTEXTUALIZING APPLICATION-CENTRIC MODEL EVALUATIONS (3/3) 代替的なモデル評価⼿法 (What)と評価駆動型ML (How) • Sparck Jones & Galliers1に基づき、評価設計前に背景・⽬的などをトップダウン的に付与 • “誰の視点で誰の利害を書くのか︖”を明確化し、レミット（権限・責任範囲）を⽂書化(付録D) • Active Testing: 評価の⽬的に最も有⽤な新規テスト項⽬を繰り返し選び、I.I.D. より良い性能推定 (能動学習) • Adversarial Testing: 保守的アプローチとして、最も有害な予測を引き出すテストを⼿動・⾃動⽣成 (敵対的攻撃) • テスト駆動型開発(TDD)から着想 • モデル性能の静的テストのみならず、 TDDベースで研究〜実装まで⾏う – テストはソフトウェアに⽐べて多様な視点（⽂脈・社会・公平性）で • 実装においては、テストデータの詳細を (過学習しない約束の上で)”可視”で⾏く場合も • モデルカード、テストケース構築プロセスなどもできるだけ⽂書化評価駆動型ML⼿法 (How) 評価範囲 % & ' 多次元⽐較 • モデル間優劣の存在仮定(リーダーボード主義の罠)を回避 • 多次元⽐較でも部分的な順序関係しか⾒えないと割切る • モデルによって最も深刻な影響を受ける⼈々により重み付けを⾏うなども検討(社会的な福祉順序での公平分配理論) 1: Karen Sparck Jones and Julia R Galliers. 1995. Evaluating natural language processing systems: An analysis and review. Vol. 1083. Springer Science & Business Media 代替的なモデル評価⼿法 (What)

reserved. 6. Conclusion • ML研究コミュニティの学習器中⼼ (Leaner-Centric)の世界と、実世界の応⽤中⼼（Application-Centric) の断絶を分析 • 上記の断絶の理由を列挙し、研究論⽂200本を通じてそれをサポート – 動機付けや⽬標の差 – 評価・リーダーボードでのSoTA圧 – 学習器への過度な集中 • 評価ギャップを⽣む6つの暗黙の前提を特定し、暗黙の前提の連鎖が「I.I.D.データでの精度計算が実世界で信頼できる」という誤った結論を導くことを主張 • 対策として、評価における明⽰的な⽂書化(レミット)の実施、テスト駆動開発(TDD; Test-Driven Developmet)のMLでの実践を推奨

reserved. 関連⽂献 • Aroyo, Lora, and Chris Welty. "Truth is a lie: Crowd truth and the seven myths of human annotation." AI Magazine 36.1 (2015): 15-24. • Powers, David MW. "What the F-measure doesn't measure: Features, Flaws, Fallacies and Fixes." arXiv preprint arXiv:1503.06410 (2015). • Raji, Inioluwa Deborah, et al. "AI and the everything in the whole wide world benchmark." arXiv preprint arXiv:2111.15366 (2021). • Eriksson, Maria, et al. "Can we trust ai benchmarks? an interdisciplinary review of current issues in ai evaluation." arXiv preprint arXiv:2502.06559 (2025). • Chandrasekaran, Jaganmohan, et al. "Test & evaluation best practices for machine learning- enabled systems." arXiv preprint arXiv:2310.06800 (2023). • Liao, Thomas, et al. "Are we learning yet? a meta review of evaluation failures across machine learning." Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 2021.

reserved. 本⽇の内容 ❶ 論⽂紹介 ❷ 効果検証⼊⾨に関する昔話（注）本資料・議論内容は、私的な有志の勉強会を⽬的としたものであり、会社としての発表ではございません

reserved. 技術評論社から(実は)以下の”シリーズ”本が出ている 2025年 2023年 2021年 2020年

reserved. 編集者いわく「データ分析技術を扱ったカラフルな表紙のシリーズ」

reserved. ⾼柳は、データ分析技術を扱ったカラフルな表紙のシリーズのに関してレビュワー(著者)として参画 2025年 2023年 2021年 2020年

reserved. 俺関連書籍4冊には執筆に⾄ったストーリー(昔話)が存在 2025年 2023年 2021年 2020年

reserved. 効果検証⼊⾨ • その昔、Tokyo.Rという団体(︖)があってな… – 今もあるが、⼦供👶が出来てから疎遠になってもうた – そこで著者の安井さんと知り合う – かれこれ10年前の話をしています • 技術評論社の圧⼒で常に書籍の著者を探す⽇々 – 正確には、主に某編集者であって社ではない – 株式会社ホクソエムという団体関連のお仕事 – 「や、安井っていう活きの良い奴がいてさぁ〜」で彼を売り⾶ばす形で執筆頂く昔話書影

reserved. 施策デザインのための機械学習⼊⾨ • 安井さんの紹介・著者で、齋藤優太さんに執筆頂く – 書籍「反実仮想機械学習」も有名 – コーネル⼤学⼤学院博⼠課程 – ⽶エール⼤学助教授の成⽥悠輔⽒と「半熟仮想」を共同創業 – 経済紙フォーブス・ジャパン「世界を変える30歳未満30 ⼈」にも選出 • とりあえずレビューがきつかった – だって難しいんだもの…南無三 – ⼈間の能⼒、おじさんの限界、体⼒の限界昔話書影

reserved. 評価指標⼊⾨ • なんかこう…順番的にね… – 複数のレビューを通じて刺激を受けていた – 腰を上げるタイミングを探していたような気はする – その時在籍していた会社の若者教育も兼ねる • アイデアはいつぞかのタイミングで思いついてはいた – 「良いとは何か︖」がとても気になっていたお年頃 – 統計理論と現場での良さのズレに興味があった – “one size fits all”や銀の弾丸はないという結論昔話書影

reserved. ビジネス課題を解決する技術 • ⾼柳が、森下さんに刺激を与える – ⾼柳さんの「評価指標⼊⾨」で衝撃を受け、僕もこんな⾵に「紹介」ではなく⾃分の「考え」を書きたいと思い、踏ん切りがつきました。素晴らしい書籍をありがとうございました︕” – 「そんなことあるのか〜著者冥利〜〜〜」とか思ってた – 森下さんは「機械学習を解釈する技術」の著者でもある • 数理的にちゃんとしているのでオススメだなと思った – 評価指標⼊⾨よりちゃんとしている – “⽼兵は死なず、ただ消え去るのみ” 昔話書影

reserved. (Overallでの) まとめ •2025年時点でも評価に関する“one size fits all”・“銀の弾丸”はなさそう – ⾯倒だが都度、ケースバイケースで考える必要がある – 良い意味で、AI時代の失職の危機の回避(?) •何がどうつながるかわからないので、“縁”を⼤切にしよう •書きたいネタ・秘めた熱い情熱ある著者志望の⽅はいつでも連絡して欲しい

bcg.com/x

論文紹介「Evaluation gaps in machine learning practi...

論文紹介「Evaluation gaps in machine learning practice」と、効果検証入門に関する昔話

Shinichi Takayanagi

More Decks by Shinichi Takayanagi

Other Decks in Technology

Featured

Transcript

論⽂紹介「Evaluation gaps in machine learning practice」と、効果検証⼊⾨に関する昔話 2025年9⽉18⽇⽩⾦鉱業

2 Copyright © 2025 by Boston Consulting Group. All rights

3 Copyright © 2025 by Boston Consulting Group. All rights

4 Copyright © 2025 by Boston Consulting Group. All rights

5 Copyright © 2025 by Boston Consulting Group. All rights

6 Copyright © 2025 by Boston Consulting Group. All rights

7 Copyright © 2025 by Boston Consulting Group. All rights

8 Copyright © 2025 by Boston Consulting Group. All rights

9 Copyright © 2025 by Boston Consulting Group. All rights

10 Copyright © 2025 by Boston Consulting Group. All rights

11 Copyright © 2025 by Boston Consulting Group. All rights

12 Copyright © 2025 by Boston Consulting Group. All rights

13 Copyright © 2025 by Boston Consulting Group. All rights

14 Copyright © 2025 by Boston Consulting Group. All rights

15 Copyright © 2025 by Boston Consulting Group. All rights

16 Copyright © 2025 by Boston Consulting Group. All rights

17 Copyright © 2025 by Boston Consulting Group. All rights

18 Copyright © 2025 by Boston Consulting Group. All rights

19 Copyright © 2025 by Boston Consulting Group. All rights

20 Copyright © 2025 by Boston Consulting Group. All rights

21 Copyright © 2025 by Boston Consulting Group. All rights

22 Copyright © 2025 by Boston Consulting Group. All rights

23 Copyright © 2025 by Boston Consulting Group. All rights

24 Copyright © 2025 by Boston Consulting Group. All rights

25 Copyright © 2025 by Boston Consulting Group. All rights

26 Copyright © 2025 by Boston Consulting Group. All rights

bcg.com/x