Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Cen...

Avatar for tsurubee tsurubee
October 24, 2025

大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models

Avatar for tsurubee

tsurubee

October 24, 2025
Tweet

More Decks by tsurubee

Other Decks in Research

Transcript

  1. 5 データカスケード [Sambasivan+, CHI 2021] • データカスケードの蔓延:インタビュー参加 者53名のAI実務者の92%が1回以上、45.3%が 2回以上のデータカスケードを経験 [Sambasivan+,

    CHI 2021] “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI データカスケード:データの問題から生じる 負の影響が連鎖的に下流に波及していく事象 • データ作業の軽視:データ収集やアノテー ションなどの作業はモデル開発と比較して、 成果が適切に評価されづらく、インセン ティブ(報酬や学術的成果など)が不足し ているため、軽視される傾向にある。 • データカスケードの原因:現実世界との乖離、 応用ドメイン領域の知識不足、相反する報酬 システム、組織間におけるドキュメント不足 により発生
  2. 6 • データ枯渇の予測:現在のLLM開発トレン ドが継続した場合、モデルは2026年から 2032年の間に、利用可能な人間が生成した テキストデータの総量とほぼ同じサイズの データセットで学習されると予測 • 今後の戦略:データ枯渇は避けられない可能 性が高い。今後のLLMのスケーリングを維持

    するためには以下の戦略が重要 [Villalobos+, ICML 2024] Will we run out of data? Limits of LLM scaling based on human-generated data 大規模言語モデル(LLM)のデータ枯渇 [Villalobos+, ICML 2024] • データ効率の改善 • 多様なデータ領域からの転移学習 • AIによる合成データ
  3. 7 ※論文数はGoogle Scholarで“data-centric AI”を検索し、 ヒット数を集計 (※) https://www.youtube.com/watch?v=06-AZXmwHjo https://https-deeplearning-ai.github.io/data-centric-comp/ Andrew Ng先生の講演

    コンペティションの開催 NeurIPSでワークショップ開催 NeurIPSで研究トラックが新設 https://datacentricai.org/neurips21/ https://neuripsconf.medium.com/announcing-the-neurips- 2021-datasets-and-benchmarks-track-644e27c1e66c Data-Centric AIに関する論文数の推移
  4. 16 合成データによるモデル崩壊 [Shumailov+, Nature 2024] (1/3) [Shumailov+, Nature 2024] AI

    models collapse when trained on recursively generated data • 研究の目的:将来、インターネット上のコンテンツの多くがAIによって生成されるようになると、新 しいモデルはAI生成データを再び学習することになる。本研究では、AIが自ら生成した情報を再学習 し続けたときに、モデルの性能や分布特性にどのような影響が生じるのかを明らかにする。 • モデル崩壊:学習済みのモデルが生成したデータが次世代モデルの学習データセットを汚染し、後続 モデルが現実を誤って認識するようになる退化的なプロセスのこと。
  5. 17 合成データによるモデル崩壊 [Shumailov+, Nature 2024] (2/3) [Shumailov+, Nature 2024] AI

    models collapse when trained on recursively generated data • 実験条件:wikitext2で学習したOPT-125M (Generation 0)を起点に、前世代が生成したデータのみで 再学習を繰り返す (Generation 1~9) • モデル崩壊の進行:世代を重ねるごとに、分布のピークが低Perplexity側にシフトし、予測しやすい (ありきたりな)文章ばかりを生成するようになる。一方、高Perplexity側にテールが伸びモデルが 幻覚的・異常なサンプルを生成し始める。
  6. 18 合成データによるモデル崩壊 [Shumailov+, Nature 2024] (3/3) [Shumailov+, Nature 2024] AI

    models collapse when trained on recursively generated data • 実験条件: wikitext2で学習したOPT-125M (Generation 0)を起点に、前世代が生成したデータ (90%) とwikitext2からランダム抽出したデータ (10%)で再学習を繰り返す (Generation 1~9) • モデル崩壊の緩和:合成データのみの学習に比べて分布の形状が保たれる。人間が生成したデータを 少量でも保持することで、モデル崩壊を抑制できることが示された。 → 人間生成データの価値が一層高まることを示唆。ただしAI生成データとの識別が不可欠。
  7. 19 [Kang+, arXiv 2025] Demystifying Synthetic Data in LLM Pre-training:

    A Systematic Study of Scaling Laws, Benefits, and Pitfalls 合成データのスケーリング則と混合戦略 [Kang+, arXiv 2025] (1/3) 研究の目的:LLMの事前学習における合成データの効果・限界・スケーリング則を、大規模な実証実験 により体系的に評価し、実用的な指針を提供する。 実験条件: • 学習規模:最大3Bパラメータの1000以上のLLMを学習(計10万GPU時間) • データ生成手法: • Synthetic Textbooks (TXBK):CommonCrawl (CC)から抽出したキーワードに基づき教科書の ような完全に新しいテキストを生成 • H Q Rephrasing:CC文書を高品質で一貫性のあるWikipediaのようなテキストに書き換え • QA Rephrasing:CC文書を、質問応答形式の会話形式に書き換え • データ混合:0, 33, 67, 100%の4段階の混合比で比較 研究課題: • RQ1:合成データは事前学習の性能を向上できるか? • RQ2:どのようなタイプの合成データが有効か? • RQ3:合成データの最適な混合比や生成モデルのサイズの影響は?
  8. 20 [Kang+, arXiv 2025] Demystifying Synthetic Data in LLM Pre-training:

    A Systematic Study of Scaling Laws, Benefits, and Pitfalls 合成データのタイプ • 教科書スタイルの合成データ (TXBK)を学習に用いた場合、Validation loss が明確に高く、 性能が劣化する。 • 再言語化合成データ(HQやQA)では、自然データ (CC)と同等、あるいはわずかに良好な結果 が得られた。 合成データのスケーリング則と混合戦略 [Kang+, arXiv 2025] (2/3)
  9. 21 [Kang+, arXiv 2025] Demystifying Synthetic Data in LLM Pre-training:

    A Systematic Study of Scaling Laws, Benefits, and Pitfalls 合成データの混合比率 • CCに対して合成データを1/3混合した構成が、最もValidation lossが低く、学習効率が高い。 • 特に、再言語化合成データ(HQやQA)を1/3混合した場合には、CCのみで学習した場合と 比べて、同一のValidation lossに到達するまでの収束が約5〜10倍速い。 合成データのスケーリング則と混合戦略 [Kang+, arXiv 2025] (3/3)
  10. 22 まとめ • データの問題が下流に波及するデータカスケードやLLMの学習データが将来的に不足する懸念に ついて紹介し、Data-Centricなアプローチの重要性を強調した。 1. Data-Centric AIの潮流 2. LLMとデータの接点:Data-Centric研究の分類

    3. 合成データに関する注目論文の紹介 • LLMとデータの4つの接点(1) Data Curation、(2) Attribution & Unlearning、(3) Knowledge Transfer、(4) Inference Contextualizationを紹介した。 • AIが自らが生成した情報を再学習し続けることで性能が退化するモデル崩壊について調査した 論文を紹介した。 • 大規模な実証実験から合成データの適切な混合比や生成方法を明らかにした論文を紹介した。