CHI 2021] “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI データカスケード:データの問題から生じる 負の影響が連鎖的に下流に波及していく事象 • データ作業の軽視:データ収集やアノテー ションなどの作業はモデル開発と比較して、 成果が適切に評価されづらく、インセン ティブ(報酬や学術的成果など)が不足し ているため、軽視される傾向にある。 • データカスケードの原因:現実世界との乖離、 応用ドメイン領域の知識不足、相反する報酬 システム、組織間におけるドキュメント不足 により発生
Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research RQ1:機械学習のタスクコミュニティは特定のデータセットにどの程度集中しているか。 分析対象: Papers With Code (PWC)から収集された2015年から2020年の期間のデータセット コンピュータビジョンと方法論のコミュニティでは、70%以上が他のタスクのために設計された データセットを利用している。 RQ2:研究者は他のタスクのために設計されたデータセットをどの程度再利用しているか。
and Recycled: The Life of a Dataset in Machine Learning Research 分析対象: Papers With Code (PWC)から収集された2015年から2020年の期間のデータセット 2021年6月時点でのPWC上のデータセット利用の50%以上は、12のエリート機関によって提供された ものであり、この傾向は年々強まっている。 RQ3:主要な機械学習ベンチマークはどのような機関が提供しているか。 少数のデータセットに研究が集中する現状は、モデルの過剰適合を引き起こし、汎用的なモデル開発や 研究の発展を阻害するため、高品質で多様なベンチマークデータセットの開発を促進することが重要
するためには以下の戦略が重要 [Villalobos+, ICML 2024] Will we run out of data? Limits of LLM scaling based on human-generated data 大規模言語モデル(LLM)のデータ枯渇 [Villalobos+, ICML 2024] • AIによる合成データ • 多様なデータ領域からの転移学習 • データ効率の改善
benchmark 言語モデルのためのData-centricベンチマーク:240兆トークンの大規模な公開コーパスDCLM-POOL を用いて、データセットのフィルタリング、混合などのアルゴリズムを評価するためのフレームワーク DataComp for Language Models (DCLM)を提案 [Li+, NeurIPS 2024] DataComp-LM: In search of the next generation of training sets for language models
In search of the next generation of training sets for language models • モデルの性能評価:DCLM-BASELINEを用いて事前学習した7Bパラメータの言語モデルは、MMLUで 64%を達成し、6.6倍の計算量で学習させたLlama 3 8Bに匹敵する性能を示した。 DataComp for Language Models [Li+, NeurIPS 2024] (2/2)
A 1.8 Million Math Instruction Tuning Dataset ※ https://huggingface.co/datasets/nvidia/OpenMathInstruct-1 • 数学的推論のためのInstructionデータセット:180万件の数学の問題と解答のペアからなる大規模な データセットOpenMathInstruct-1※を公開 • オープンソースLLMによる合成データ: GSM8KとMATHの2つの一般的な数学的推論ベンチマークに 対して、Mixtralモデルを使用してコードインタープリター形式の解答を生成 Training data development
A 1.8 Million Math Instruction Tuning Dataset GPT蒸留モデルに匹敵する性能の実現: OpenMathInstruct-1でファインチューニング されたMistral-7BモデルやCodeLlama-70Bモ デルなどは、GPT-3.5/4による合成データで ファインチューニングしたGPT蒸留モデルに 匹敵するスコアを達成し、データセットの品 質の高さを実証 Training data development
development [Lin+, NeurIPS 2024] Not All Tokens Are What You Need for Pretraining • 研究の仮説:『コーパス内の全てのトークンが言語モデルの学習にとって等しく重要であるわけでは ない』という仮説に基づき、従来のLLMの事前学習に対して疑問を呈した。 • トークンレベルのデータ選択:参照モデルを用いて事前学習コーパスの各トークンをスコアリングし、 より重要なトークンを選択的に学習するSelective Language Modeling (SLM)を提案した。SLMでは、 学習モデルの損失と参照モデルの損失の差が大きいトークンほど高いスコアを割り当てられる。
development [Lin+, NeurIPS 2024] Not All Tokens Are What You Need for Pretraining • 学習効率の向上:SLMを用いたRHO-1モデル(1B)は、ベースラインモデルと比較して、10倍少ない学 習トークン数でMATHベンチマークにおいて同等の性能を達成 • 数学的な推論力の向上:Tinyllama-1BをベースにOpenWebMathデータを用いてSLMで学習された RHO-1-Mathモデルは、同モデル・データで通常の継続事前学習を行ったTinyllama-CTに比べて16% 以上の平均精度向上を達成
NeurIPS 2024] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark • MMLUの課題:LLMの性能が頭打ちになり、モデル性能の微妙な差を識別するのが困難 例えば、 GPT-4oとGPT-4-TurboのMMLUでの精度差は約2% • MMLU-Proの特徴:①選択肢の数を4から10に増加、②高度な推論能力を必要とする問題の導入、 ③専門家の2段階レビューによるデータセットの高品質化
MMLU-Proの困難性:MMLU-Proでは、最先端のGPT-4oでさえ72.5%の精度にとどまった。また、 GPT-4oとGPT-4-Turboの精度差は約9%に広がった。 • Chain of Thought (CoT)による性能向上: MMLU-ProではCoT推論を使用することで、MMLUより も顕著に性能が向上 [Wang+, NeurIPS 2024] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark