Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIトップカンファレンスからみるData-Centric AIの研究動向 / Research...

tsurubee
January 27, 2025

AIトップカンファレンスからみるData-Centric AIの研究動向 / Research Trends in Data-Centric AI: Insights from Top AI Conferences

第12回 Data-Centric AI勉強会
https://dcai-jp.connpass.com/event/341068/

tsurubee

January 27, 2025
Tweet

More Decks by tsurubee

Other Decks in Research

Transcript

  1. 5 データカスケード [Sambasivan+, CHI 2021] • データカスケードの蔓延:インタビュー参加 者53名のAI実務者の92%が1回以上、45.3%が 2回以上のデータカスケードを経験 [Sambasivan+,

    CHI 2021] “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI データカスケード:データの問題から生じる 負の影響が連鎖的に下流に波及していく事象 • データ作業の軽視:データ収集やアノテー ションなどの作業はモデル開発と比較して、 成果が適切に評価されづらく、インセン ティブ(報酬や学術的成果など)が不足し ているため、軽視される傾向にある。 • データカスケードの原因:現実世界との乖離、 応用ドメイン領域の知識不足、相反する報酬 システム、組織間におけるドキュメント不足 により発生
  2. 6 研究者のデータセット利用/再利用[Koch+, NeurIPS 2021] (1/2) 多くのコミュニティでは、時間の経過とともに、少数のデータセットに利用が集中する傾向にある。 全体的な傾向として、2015~2020年の間にGini係数が0.113増加すると予測した。 [Koch+, NeurIPS 2021]

    Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research RQ1:機械学習のタスクコミュニティは特定のデータセットにどの程度集中しているか。 分析対象: Papers With Code (PWC)から収集された2015年から2020年の期間のデータセット コンピュータビジョンと方法論のコミュニティでは、70%以上が他のタスクのために設計された データセットを利用している。 RQ2:研究者は他のタスクのために設計されたデータセットをどの程度再利用しているか。
  3. 7 研究者のデータセット利用/再利用[Koch+, NeurIPS 2021] (2/2) [Koch+, NeurIPS 2021] Reduced, Reused

    and Recycled: The Life of a Dataset in Machine Learning Research 分析対象: Papers With Code (PWC)から収集された2015年から2020年の期間のデータセット 2021年6月時点でのPWC上のデータセット利用の50%以上は、12のエリート機関によって提供された ものであり、この傾向は年々強まっている。 RQ3:主要な機械学習ベンチマークはどのような機関が提供しているか。 少数のデータセットに研究が集中する現状は、モデルの過剰適合を引き起こし、汎用的なモデル開発や 研究の発展を阻害するため、高品質で多様なベンチマークデータセットの開発を促進することが重要
  4. 8 • データ枯渇の予測:現在のLLM開発トレン ドが継続した場合、モデルは2026年から 2032年の間に、利用可能な人間が生成した テキストデータの総量とほぼ同じサイズの データセットで学習されると予測 • 今後の戦略:データ枯渇は避けられない可能 性が高い。今後のLLMのスケーリングを維持

    するためには以下の戦略が重要 [Villalobos+, ICML 2024] Will we run out of data? Limits of LLM scaling based on human-generated data 大規模言語モデル(LLM)のデータ枯渇 [Villalobos+, ICML 2024] • AIによる合成データ • 多様なデータ領域からの転移学習 • データ効率の改善
  5. 11 論文数の推移 ※論文数はGoogle Scholarで“data-centric AI”を検索し、 ヒット数を集計 (※) https://www.youtube.com/watch?v=06-AZXmwHjo https://https-deeplearning-ai.github.io/data-centric-comp/ Andrew

    Ng先生の講演 コンペティションの開催 NeurIPSでワークショップ開催 NeurIPSで研究トラックが新設 https://datacentricai.org/neurips21/ https://neuripsconf.medium.com/announcing-the-neurips- 2021-datasets-and-benchmarks-track-644e27c1e66c
  6. 12 論文数の推移 ※論文数はGoogle Scholarで“data-centric AI”を検索し、 ヒット数を集計 (※) https://www.youtube.com/watch?v=06-AZXmwHjo https://https-deeplearning-ai.github.io/data-centric-comp/ Andrew

    Ng先生の講演 コンペティションの開催 NeurIPSでワークショップ開催 NeurIPSで研究トラックが新設 https://datacentricai.org/neurips21/ https://neuripsconf.medium.com/announcing-the-neurips- 2021-datasets-and-benchmarks-track-644e27c1e66c
  7. 13 NeurIPS Datasets and Benchmarks Track: 概要 • AI分野のトップカンファレンスであるNeurIPSは、2021年に新たにDatasets and

    Benchmark Trackを発足 • 本トラックは、「非常に価値の高い機械学習データセットやベンチマークに関する質の高い論文、 講演、ポスターの発表の場として、また、データセット開発の改善方法に関する議論の場として 機能します。」(公式ブログ※より翻訳) ※ https://neuripsconf.medium.com/announcing-the-neurips-2021-datasets-and-benchmarks-track-644e27c1e66c
  8. 15 NeurIPS Datasets and Benchmarks Track: 査読 Main Trackとは異なる独自の査読ガイドライン ※

    https://arxiv.org/abs/1803.09010 • 査読は原則としてシングルブラインド (条件を満たせばダブルブラインドも可) • データセットのメタデータフォーマットとし てCroissantを推奨(詳細は後述) • データセットのドキュメント化にDatasheets for Datasets※を推奨。データセットの内容や 使用目的、前処理方法、配布方法、メンテナ ンス方法などの記述が求められる。 https://zenn.dev/tsurubee/articles/5d84372c3cfca3
  9. 16 NeurIPS Datasets and Benchmarks Track: 論文数の推移 • 投稿件数の増加: 2022年以降は、毎年投稿件数が

    約2倍近く増加し、2024年の投稿論文件数は1820件 • 採択率の低下: 2022年以降は、採択率が年々低下 し、2024年の採択率はMain Trackと同等レベルの 25.3% • 2020年以前のNeurIPS:新しいデータセットの提案 に焦点を当てた採択論文は年間で5本以下、幅広い データセットにわたるアルゴリズムのベンチマーク に焦点を当てた採択論文は10本程度※ ※ https://neuripsconf.medium.com/announcing-the-neurips-2021-datasets-and-benchmarks-track-644e27c1e66c
  10. 18 Language (46.6%) Image (24.3%) Video (10.4%) Others (14.7%) データのモダリティ

    各キーワードが含まれるか検索し、ヒット数を集計 ※マルチモーダルな研究は考慮していない。 分析対象:NeurIPS 2024 Datasets and Benchmarks Trackの採択論文460件のアブストラクト Time-series (2.1%) Audio (1.9%)
  11. 22 DataComp for Language Models [Li+, NeurIPS 2024] (1/2) Data-centric

    benchmark 言語モデルのためのData-centricベンチマーク:240兆トークンの大規模な公開コーパスDCLM-POOL を用いて、データセットのフィルタリング、混合などのアルゴリズムを評価するためのフレームワーク DataComp for Language Models (DCLM)を提案 [Li+, NeurIPS 2024] DataComp-LM: In search of the next generation of training sets for language models
  12. 23 Data-centric benchmark • DCLMを用いた高品質なデータセット構築:DCLM-POOLを出発点としてモデルベースのフィルタリ ングを主要な要素とする多段階の処理を行い、DCLM-BASELINEを開発 [Li+, NeurIPS 2024] DataComp-LM:

    In search of the next generation of training sets for language models • モデルの性能評価:DCLM-BASELINEを用いて事前学習した7Bパラメータの言語モデルは、MMLUで 64%を達成し、6.6倍の計算量で学習させたLlama 3 8Bに匹敵する性能を示した。 DataComp for Language Models [Li+, NeurIPS 2024] (2/2)
  13. 25 OpenMathInstruct-1 [Toshniwal+, NeurIPS 2024] (1/2) [Toshniwal+, NeurIPS 2024] OpenMathInstruct-1:

    A 1.8 Million Math Instruction Tuning Dataset ※ https://huggingface.co/datasets/nvidia/OpenMathInstruct-1 • 数学的推論のためのInstructionデータセット:180万件の数学の問題と解答のペアからなる大規模な データセットOpenMathInstruct-1※を公開 • オープンソースLLMによる合成データ: GSM8KとMATHの2つの一般的な数学的推論ベンチマークに 対して、Mixtralモデルを使用してコードインタープリター形式の解答を生成 Training data development
  14. 26 OpenMathInstruct-1 [Toshniwal+, NeurIPS 2024] (2/2) [Toshniwal+, NeurIPS 2024] OpenMathInstruct-1:

    A 1.8 Million Math Instruction Tuning Dataset GPT蒸留モデルに匹敵する性能の実現: OpenMathInstruct-1でファインチューニング されたMistral-7BモデルやCodeLlama-70Bモ デルなどは、GPT-3.5/4による合成データで ファインチューニングしたGPT蒸留モデルに 匹敵するスコアを達成し、データセットの品 質の高さを実証 Training data development
  15. 27 Selective Language Modeling [Lin+, NeurIPS 2024] (1/2) Training data

    development [Lin+, NeurIPS 2024] Not All Tokens Are What You Need for Pretraining • 研究の仮説:『コーパス内の全てのトークンが言語モデルの学習にとって等しく重要であるわけでは ない』という仮説に基づき、従来のLLMの事前学習に対して疑問を呈した。 • トークンレベルのデータ選択:参照モデルを用いて事前学習コーパスの各トークンをスコアリングし、 より重要なトークンを選択的に学習するSelective Language Modeling (SLM)を提案した。SLMでは、 学習モデルの損失と参照モデルの損失の差が大きいトークンほど高いスコアを割り当てられる。
  16. 28 Selective Language Modeling [Lin+, NeurIPS 2024] (2/2) Training data

    development [Lin+, NeurIPS 2024] Not All Tokens Are What You Need for Pretraining • 学習効率の向上:SLMを用いたRHO-1モデル(1B)は、ベースラインモデルと比較して、10倍少ない学 習トークン数でMATHベンチマークにおいて同等の性能を達成 • 数学的な推論力の向上:Tinyllama-1BをベースにOpenWebMathデータを用いてSLMで学習された RHO-1-Mathモデルは、同モデル・データで通常の継続事前学習を行ったTinyllama-CTに比べて16% 以上の平均精度向上を達成
  17. 30 MMLU-Pro [Wang+, NeurIPS 2024] (1/2) Inference data development [Wang+,

    NeurIPS 2024] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark • MMLUの課題:LLMの性能が頭打ちになり、モデル性能の微妙な差を識別するのが困難 例えば、 GPT-4oとGPT-4-TurboのMMLUでの精度差は約2% • MMLU-Proの特徴:①選択肢の数を4から10に増加、②高度な推論能力を必要とする問題の導入、 ③専門家の2段階レビューによるデータセットの高品質化
  18. 31 MMLU-Pro [Wang+, NeurIPS 2024] (2/2) Inference data development •

    MMLU-Proの困難性:MMLU-Proでは、最先端のGPT-4oでさえ72.5%の精度にとどまった。また、 GPT-4oとGPT-4-Turboの精度差は約9%に広がった。 • Chain of Thought (CoT)による性能向上: MMLU-ProではCoT推論を使用することで、MMLUより も顕著に性能が向上 [Wang+, NeurIPS 2024] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
  19. 32 GenAI Arena [Jiang+, NeurIPS 2024] (1/2) Inference data development

    [Jiang+, NeurIPS 2024] GenAI Arena: An Open Evaluation Platform for Generative Models • GenAI Arena:テキストから画像生成、画像編集、テキストから動画生成という3つのタスクにおいて、 マルチモーダルな生成AIをユーザーの嗜好に基づいて評価するオープンなプラットフォームを提案 • ユーザ参加型の評価:ユーザーが実際にモデルを比較し、どちらが優れているか投票することで、モデ ルの性能をより民主的かつ正確に評価することを目指す。
  20. 33 GenAI Arena [Jiang+, NeurIPS 2024] (2/2) Inference data development

    [Jiang+, NeurIPS 2024] GenAI Arena: An Open Evaluation Platform for Generative Models ※ https://huggingface.co/datasets/TIGER-Lab/GenAI-Bench • GenAI-Bench:収集されたユーザーの投票データはGenAI-Bench※として公開され、マルチモーダル 大規模言語モデル(MLLM)の評価能力の向上のための研究を促進 • MLLMの評価精度: GenAI-Benchを用いた評価では、既存のMLLMは人間の嗜好を正確に模倣するの に苦戦している。例えば、最先端のGPT-4oでさえ、3つのタスクの平均精度が49.19%程度
  21. 35 Croissant [Akhtar+, NeurIPS 2024] (1/2) Data maintenance • Croissant:機械学習ツール、フレー

    ムワーク、プラットフォーム間での 機械学習データセットの発見性、移 植性、再現性、相互運用性を向上さ せるために設計されたメタデータ フォーマットCroissantを提案 [Akhtar+, NeurIPS 2024] Croissant: A Metadata Format for ML-Ready Datasets • NeurIPSでの推奨:NeurIPS Datasets and Benchmarksでは論文 の補足資料にCroissantのURLを記載 することが推奨 JSON-LD形式
  22. 36 Croissant [Akhtar+, NeurIPS 2024] (2/2) Data maintenance データセットリポジトリとの統合:Hugging Face

    DatasetsやKaggle Datasetsを含む主要なデータ セットリポジトリに統合されており、これらのツールを通じて簡単にアクセスできる。 [Akhtar+, NeurIPS 2024] Croissant: A Metadata Format for ML-Ready Datasets
  23. 37 まとめ • データの問題が下流に波及するデータカスケードや、研究者のデータセット利用が一部のデータ セットに偏重する問題、LLMの学習データが将来的に不足する懸念について紹介し、Data- Centricなアプローチの重要性を強調した。 1. Data-Centric AIの重要性 2.

    学術界におけるData-Centricの潮流 3. NeurIPS 2024からみる研究動向 • Data-Centric AIの研究論文は2021年以降、急増している。 • 主な要因としてNeurIPS Datasets and Benchmarks Trackの設立が挙げられ、2024年には460本 の論文が出版された。 • Data-Centric AIの研究論文を(1) Data-centric benchmark、(2) Training data development、 (3) Inference data development、(4) Data maintenanceの4カテゴリに分類し、各カテゴリに おけるNeurIPS 2024の注目論文を紹介した。