Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発

SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発

More Decks by 画像センシングシンポジウム

Transcript

  1. 2 自己紹介 経歴: •-2015/03: 東京工業大学 博士後期課程 •2015/04-2017/04: 富士通研究所 •2017/05-現在: Preferred Networks

    (PFN) • 2023/11: Preferred Elements (PFE)に出向中 現在の主な業務: 大規模言語モデルを開発するチームの一つの事前学習のチームリーダー
  2. 3 PFNグループについて ソリューション・製品 計算基盤 AIチップ 生成AI・基盤モデル 様々な産業・消費者向けのソリューション・製品群 GPUクラスタ MN-Core™ クラスタ

    (MN-3) MN-Core™2 クラスタ MN-Core™ 2による 計算能力のクラウド提供 (2024年開始予定) 物質の電子状態・ エネルギー計算モデル Preferred Potential (PFP) • PFNグループでは、チップ、計算基盤、生成AI・基盤モデル、ソリューション・製品まで、AI技術のバリュー チェーンを垂直統合して独自開発しています PLaMo Prime PLaMo Lite(エッジ向けSLM) MN-Core™ MN-Core™ 2 MN-Core 第三世代 LLM向け 推論チップ
  3. 4 製造業、素材産業、医療、金融などの専門領域での応用を目指す PLaMo: 世界最高クラスの日本語性能を持つ純国産の生成 AI基盤モデル • 独自構築したアーキテクチャ・ 学習データ・事前学習・事後学習 • 他社の縛りがなく、学習が管理

    された純国産の基盤モデル • 主要な日本語ベンチマークにお いて全LLMを超える精度を記録 • 日本に関する知識についても高 い性能を達成 • 閉じたオンプレミス環境でも利 用可能 純国産フルスクラッチモデル 世界最高クラスの日本語性能 クラウドおよびオンプレミス で利用可能
  4. 5 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構(NEDO)が 実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) • GENIAC 第2期の支援を受けて実施

    PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) • 13Bパラメータ • ABCI の”第一回 大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) • 100Bパラメータ • GENIAC 第1期の支援を受けて実施
  5. 6 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構(NEDO)が 実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) • GENIAC 第2期の支援を受けて実施

    PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) • 13Bパラメータ • ABCI の”第一回 大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) • 100Bパラメータ • GENIAC 第1期の支援を受けて実施 問題点 • 数学・コーディング等の能力が乏しい • モデルが大きく様々なコストがかさむ ◦ 推論にかかるGPUコスト ◦ fine tuningなどで必要な計算資源
  6. 7 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構(NEDO)が 実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) • GENIAC 第2期の支援を受けて実施中

    PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) • 13Bパラメータ • ABCI の”第一回 大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) • 100Bパラメータ • GENIAC 第1期の支援を受けて実施 問題点 • 数学・コーディング等の能力が乏しい • モデルが大きく様々なコストがかさむ ◦ 推論にかかるGPUコスト ◦ fine tuningなどで必要な計算資源 PLaMo 2に求めるもの • PLaMo-100Bと同等以上の能力 ◦ 日本語一般のタスクでPLaMo-100Bと同等 ◦ 数学・コーディングなどではPLaMo-100Bを上回る • より小さなモデルサイズ ◦ 8Bパラメータ以下で高い精度を目指す ▪ この過程で1Bなどの小さいサイズのモデルを作り検証
  7. 8 PLaMo 2 のSLMの精度まとめ JMMLU (5-shot) 日本語による幅広いマルチタスク pfgen 日本語生成に関する性能 後ほど紹介するpruning

    + knowledge distillationを活用して、8Bモデルから作った2Bモデ ルの精度は以下の通り
  8. 14 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる 計算資源を増やす: overtraining

    モデルサイズが変わらないので一定 学習tokenを増やすと0に近づく Q. 8Bモデルの場合どのくらいで頭打ちになるのか? A. ある論文の実験を参考にすると、2~3Ttokenで限界となる可能性 [Language models scale reliably with over-training and on downstream tasks]
  9. 15 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる 計算資源を増やす: overtraining

    モデルサイズが変わらないので一定 学習tokenを増やすと0に近づく Q. 8Bモデルの場合どのくらいで頭打ちになるのか? A. ある論文の実験を参考にすると、2~3Ttokenで限界となる可能性 [Language models scale reliably with over-training and on downstream tasks] overtrainingは効果が薄い可能性
  10. 17 小さいモデル 大きいモデルを活用して小さいモデルを作る 大きいモデル pruning + knowledge distillation [Compact Language

    Models via Pruning and Knowledge Distillation] 別のモデルを学習してその重みを利用する
  11. 20 PLaMo 2 の検証: pruning + knowledge distillation ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない

    4Ttoken (PLaMo-2-1B) 100Btoken w/ pruning + knowledge distillation 400Btoken 6Ttoken (PLaMo-2-8B ) 学習継続 pruning + knowledge distillation pruning + knowledge distillationによって モデル性能を改善できそう
  12. 21 PLaMo 2 の検証: pruning + knowledge distillation ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない

    4Ttoken (PLaMo-2-1B) 100Btoken w/ pruning + knowledge distillation 400Btoken 6Ttoken (PLaMo-2-8B ) 学習継続 pruning + knowledge distillation pruningによってモデル性能を改善できそう Distillation Scaling Law [arXiv.2502.08606] 十分token数が多ければknowledge distillationとovertrainingで 性能は変わらない pruning等も効果が乏しい可能性がある
  13. 22 Minitron: 教師モデルの学習後半で使うデータのみをpruningなどに用いる [Compact Language Models via Pruning and Knowledge

    Distillation] Pruning + knowledge distillationはなぜ性能改善につ ながったのか (仮説) overtraining pruning + knowledge distillation 前半データセットの学習 高品質データ その他データ 後半データセットの学習 高品質データ 後半データセットの学習 高品質データ
  14. 23 Minitron: 教師モデルの学習後半で使うデータのみをpruningなどに用いる [Compact Language Models via Pruning and Knowledge

    Distillation] Pruning + knowledge distillationはなぜ性能改善につ ながったのか (仮説) overtraining pruning + knowledge distillation 前半データセットの学習 高品質データ その他データ 後半データセットの学習 高品質データ 後半データセットの学習 高品質データ 高品質データのみで学習したことが性能改善の理由かもしれない (高品質なデータセットでovertrainingすれば性能は揃うかも) • overtraining: 高品質データを大量に集めることは困難 ⇒ 高品質なデータセットでのovertrainingは難しい • pruning (等): 同じ性能に到達するまでの学習tokenを短くできる ⇒ 高品質なデータセットのみを使用して学習できる
  15. 24 • 方法は大きく以下の2つ ◦ 計算資源を効率よく利用する ◦ 学習に使う計算資源を増やす • 既存研究をまとめると、計算資源を増やしての性能向上は難しそう ⇒

    データセットの品質をあげて計算資源を効率よく利用することが重要 • 学習手法の変更により間接的にデータセットの品質を上げることは可能 ◦ pruningやknowledge distillationによって短い学習tokenで学習する等 ◦ 他にも工夫のしどころはあるかもしれない まとめ