SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発

PFNにおけるSmall Language Modelの開発   鈴木脩司  （株式会社Preferred Networks/株式会社Preferred Elements） 

2 自己紹介経歴: •-2015/03: 東京工業大学　博士後期課程 •2015/04-2017/04: 富士通研究所 •2017/05-現在: Preferred Networks
(PFN) • 2023/11: Preferred Elements (PFE)に出向中現在の主な業務: 大規模言語モデルを開発するチームの一つの事前学習のチームリーダー

3 PFNグループについてソリューション・製品計算基盤 AIチップ生成AI・基盤モデル様々な産業・消費者向けのソリューション・製品群 GPUクラスタ MN-Core™ クラスタ
（MN-3） MN-Core™2 クラスタ MN-Core™ 2による計算能力のクラウド提供 (2024年開始予定）物質の電子状態・エネルギー計算モデル Preferred Potential (PFP) • PFNグループでは、チップ、計算基盤、生成AI・基盤モデル、ソリューション・製品まで、AI技術のバリューチェーンを垂直統合して独自開発しています PLaMo Prime PLaMo Lite（エッジ向けSLM） MN-Core™ MN-Core™ 2 MN-Core 第三世代 LLM向け推論チップ

4 製造業、素材産業、医療、金融などの専門領域での応用を目指す PLaMo：世界最高クラスの日本語性能を持つ純国産の生成 AI基盤モデル • 独自構築したアーキテクチャ・学習データ・事前学習･事後学習 • 他社の縛りがなく、学習が管理
された純国産の基盤モデル • 主要な日本語ベンチマークにおいて全LLMを超える精度を記録 • 日本に関する知識についても高い性能を達成 • 閉じたオンプレミス環境でも利用可能純国産フルスクラッチモデル世界最高クラスの日本語性能クラウドおよびオンプレミスで利用可能

5 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構（NEDO）が実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) • GENIAC 第2期の支援を受けて実施
PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) • 13Bパラメータ • ABCI の”第一回大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) • 100Bパラメータ • GENIAC 第1期の支援を受けて実施

6 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構（NEDO）が実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) • GENIAC 第2期の支援を受けて実施
PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) • 13Bパラメータ • ABCI の”第一回大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) • 100Bパラメータ • GENIAC 第1期の支援を受けて実施問題点 • 数学・コーディング等の能力が乏しい • モデルが大きく様々なコストがかさむ ◦ 推論にかかるGPUコスト ◦ ﬁne tuningなどで必要な計算資源

7 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構（NEDO）が実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) • GENIAC 第2期の支援を受けて実施中
PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) • 13Bパラメータ • ABCI の”第一回大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) • 100Bパラメータ • GENIAC 第1期の支援を受けて実施問題点 • 数学・コーディング等の能力が乏しい • モデルが大きく様々なコストがかさむ ◦ 推論にかかるGPUコスト ◦ ﬁne tuningなどで必要な計算資源 PLaMo 2に求めるもの • PLaMo-100Bと同等以上の能力 ◦ 日本語一般のタスクでPLaMo-100Bと同等 ◦ 数学・コーディングなどではPLaMo-100Bを上回る • より小さなモデルサイズ ◦ 8Bパラメータ以下で高い精度を目指す ▪ この過程で1Bなどの小さいサイズのモデルを作り検証

8 PLaMo 2 のSLMの精度まとめ JMMLU (5-shot) 日本語による幅広いマルチタスク pfgen 日本語生成に関する性能後ほど紹介するpruning
+ knowledge distillationを活用して、8Bモデルから作った2Bモデルの精度は以下の通り

9 効率よく計算資源を使うモデルサイズを抑えて性能を上げるために計算資源を増やす • 高品質なデータセットを使って学習する (e.g., wiki) • 学習token数を増やす
(overtraining) • 大きいモデルを活用して小さいモデルを作る

10 効率よく計算資源を使うモデルサイズを抑えて性能を上げるために計算資源を増やす • 高品質なデータセットを使って学習する (e.g., wiki) • 学習token数を増やす
(overtraining) • 大きいモデルを活用して小さいモデルを作る今回はこちらに絞る

11 計算資源を増やすモデルサイズを抑えて性能を上げるために • 学習token数を増やす (overtraining) • 大きいモデルを活用して小さいモデル
を作る Minitron http://arxiv.org/abs/2407.14679

13 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる計算資源を増やす: overtraining
モデルサイズが変わらないので一定学習tokenを増やすと0に近づく

モデルサイズが変わらないので一定学習tokenを増やすと0に近づく Q. 8Bモデルの場合どのくらいで頭打ちになるのか？ A. ある論文の実験を参考にすると、2~3Ttokenで限界となる可能性 [Language models scale reliably with over-training and on downstream tasks]

モデルサイズが変わらないので一定学習tokenを増やすと0に近づく Q. 8Bモデルの場合どのくらいで頭打ちになるのか？ A. ある論文の実験を参考にすると、2~3Ttokenで限界となる可能性 [Language models scale reliably with over-training and on downstream tasks] overtrainingは効果が薄い可能性

17 小さいモデル大きいモデルを活用して小さいモデルを作る大きいモデル pruning + knowledge distillation [Compact Language
Models via Pruning and Knowledge Distillation] 別のモデルを学習してその重みを利用する

18 PLaMo 2 の検証: overtraining ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 100Btoken 1Ttoken 4Ttoken
(PLaMo-2-1B) 100Btoken

19 PLaMo 2 の検証: overtraining ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 100Btoken 1Ttoken 4Ttoken
(PLaMo-2-1B) 100Btoken overtrainingの限界が見える

20 PLaMo 2 の検証: pruning + knowledge distillation ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない
4Ttoken (PLaMo-2-1B) 100Btoken w/ pruning + knowledge distillation 400Btoken 6Ttoken (PLaMo-2-8B ) 学習継続 pruning + knowledge distillation pruning + knowledge distillationによってモデル性能を改善できそう

21 PLaMo 2 の検証: pruning + knowledge distillation ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない
4Ttoken (PLaMo-2-1B) 100Btoken w/ pruning + knowledge distillation 400Btoken 6Ttoken (PLaMo-2-8B ) 学習継続 pruning + knowledge distillation pruningによってモデル性能を改善できそう Distillation Scaling Law [arXiv.2502.08606] 十分token数が多ければknowledge distillationとovertrainingで性能は変わらない pruning等も効果が乏しい可能性がある

22 Minitron: 教師モデルの学習後半で使うデータのみをpruningなどに用いる [Compact Language Models via Pruning and Knowledge
Distillation] Pruning + knowledge distillationはなぜ性能改善につながったのか (仮説) overtraining pruning + knowledge distillation 前半データセットの学習高品質データその他データ後半データセットの学習高品質データ後半データセットの学習高品質データ

23 Minitron: 教師モデルの学習後半で使うデータのみをpruningなどに用いる [Compact Language Models via Pruning and Knowledge
Distillation] Pruning + knowledge distillationはなぜ性能改善につながったのか (仮説) overtraining pruning + knowledge distillation 前半データセットの学習高品質データその他データ後半データセットの学習高品質データ後半データセットの学習高品質データ高品質データのみで学習したことが性能改善の理由かもしれない (高品質なデータセットでovertrainingすれば性能は揃うかも) • overtraining: 高品質データを大量に集めることは困難 ⇒ 高品質なデータセットでのovertrainingは難しい • pruning (等): 同じ性能に到達するまでの学習tokenを短くできる ⇒ 高品質なデータセットのみを使用して学習できる

24 • 方法は大きく以下の2つ ◦ 計算資源を効率よく利用する ◦ 学習に使う計算資源を増やす • 既存研究をまとめると、計算資源を増やしての性能向上は難しそう ⇒
データセットの品質をあげて計算資源を効率よく利用することが重要 • 学習手法の変更により間接的にデータセットの品質を上げることは可能 ◦ pruningやknowledge distillationによって短い学習tokenで学習する等 ◦ 他にも工夫のしどころはあるかもしれないまとめ

SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発

SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Featured

Transcript

PFNにおけるSmall Language Modelの開発   鈴木脩司  （株式会社Preferred Networks/株式会社Preferred Elements）

2 自己紹介経歴: •-2015/03: 東京工業大学　博士後期課程 •2015/04-2017/04: 富士通研究所 •2017/05-現在: Preferred Networks

3 PFNグループについてソリューション・製品計算基盤 AIチップ生成AI・基盤モデル様々な産業・消費者向けのソリューション・製品群 GPUクラスタ MN-Core™ クラスタ

5 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構（NEDO）が実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) • GENIAC 第2期の支援を受けて実施

6 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構（NEDO）が実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) • GENIAC 第2期の支援を受けて実施

7 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構（NEDO）が実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) • GENIAC 第2期の支援を受けて実施中

8 PLaMo 2 のSLMの精度まとめ JMMLU (5-shot) 日本語による幅広いマルチタスク pfgen 日本語生成に関する性能後ほど紹介するpruning

9 効率よく計算資源を使うモデルサイズを抑えて性能を上げるために計算資源を増やす • 高品質なデータセットを使って学習する (e.g., wiki) • 学習token数を増やす

10 効率よく計算資源を使うモデルサイズを抑えて性能を上げるために計算資源を増やす • 高品質なデータセットを使って学習する (e.g., wiki) • 学習token数を増やす

11 計算資源を増やすモデルサイズを抑えて性能を上げるために • 学習token数を増やす (overtraining) • 大きいモデルを活用して小さいモデル

12 計算資源を増やすモデルサイズを抑えて性能を上げるために • 学習token数を増やす (overtraining) • 大きいモデルを活用して小さいモデル

13 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる計算資源を増やす: overtraining

14 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる計算資源を増やす: overtraining

15 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる計算資源を増やす: overtraining

16 計算資源を増やすモデルサイズを抑えて性能を上げるために • 学習token数を増やす (overtraining) • 大きいモデルを活用して小さいモデル

17 小さいモデル大きいモデルを活用して小さいモデルを作る大きいモデル pruning + knowledge distillation [Compact Language

18 PLaMo 2 の検証: overtraining ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 100Btoken 1Ttoken 4Ttoken

19 PLaMo 2 の検証: overtraining ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 100Btoken 1Ttoken 4Ttoken

20 PLaMo 2 の検証: pruning + knowledge distillation ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない

21 PLaMo 2 の検証: pruning + knowledge distillation ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない

22 Minitron: 教師モデルの学習後半で使うデータのみをpruningなどに用いる [Compact Language Models via Pruning and Knowledge

23 Minitron: 教師モデルの学習後半で使うデータのみをpruningなどに用いる [Compact Language Models via Pruning and Knowledge

24 • 方法は大きく以下の2つ ◦ 計算資源を効率よく利用する ◦ 学習に使う計算資源を増やす • 既存研究をまとめると、計算資源を増やしての性能向上は難しそう ⇒