Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMのテスト時計算最適化に関する研究
Search
ymgc
January 12, 2025
Technology
0
86
LLMのテスト時計算最適化に関する研究
ymgc
January 12, 2025
Tweet
Share
More Decks by ymgc
See All by ymgc
予測する心 - 知覚と行為の統一理論
__ymgc__
0
97
テスト駆動開発(TDD)入門
__ymgc__
0
110
AI に特化した品質特性のテスト
__ymgc__
1
82
AIを活用したソフトウェアテスト技術 - ISTQB Foundation Level - AI Testing (CT-AI)
__ymgc__
1
110
Machines of Loving Grace - AIはどのように世界をより良く変えるか -
__ymgc__
1
99
ファシリテーションの技術
__ymgc__
2
120
(論文読み)BigCodeBench: 多様な関数呼び出しと複雑な指示を用いたコード生成のベンチマーキング
__ymgc__
1
110
(論文読み)Very Large-Scale Multi-Agent Simulation in AgentScope
__ymgc__
1
130
7 POWERS
__ymgc__
1
70
Other Decks in Technology
See All in Technology
Greenは本当にGreenか? - B/GデプロイとAPI自動テストで安心デプロイ
kaz29
0
130
ABEMAのCM配信を支えるスケーラブルな分散カウンタの実装
hono0130
4
1.1k
Building AI Applications with Java, LLMs, and Spring AI
thomasvitale
1
230
ABEJA FIRST GUIDE for Software Engineers
abeja
0
3.2k
[CV勉強会@関東 ICCV2025 読み会] World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model (Zheng+, ICCV 2025)
abemii
0
250
Kubernetesと共にふりかえる! エンタープライズシステムのインフラ設計・テストの進め方大全
daitak
0
440
自然言語でAPI作業を片付ける!「Postman Agent Mode」
nagix
0
130
Pandocでmd→pptx便利すぎワロタwww
meow_noisy
2
880
未回答質問の回答一覧 / 開発をリードする品質保証 QAエンジニアと開発者の未来を考える-Findy Online Conference -
findy_eventslides
0
400
膨大なデータをどうさばく? Java × MQで作るPub/Subアーキテクチャ
zenta
0
120
AWS re:Invent 2025 で頻出の 生成 AI サービスをおさらい
komakichi
3
210
AI駆動開発を実現するためのアーキテクチャと取り組み
baseballyama
15
12k
Featured
See All Featured
Embracing the Ebb and Flow
colly
88
4.9k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Docker and Python
trallard
46
3.7k
Making Projects Easy
brettharned
120
6.5k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Rails Girls Zürich Keynote
gr2m
95
14k
The Cost Of JavaScript in 2023
addyosmani
55
9.3k
It's Worth the Effort
3n
187
29k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
680
Transcript
LLM のテスト時計算最適化に関する研究 スケーリング方法の系統的分析 Scaling LLM Test-Time Compute Optimally can be
More Effective than Scaling Model Parameters https://arxiv.org/abs/2408.03314 1
目次 1. Introduction 2. テスト時計算の統一的視点 3. テスト時計算の最適なスケーリング方法 4. 実験設定 5.
検証器によるテスト時計算のスケーリング 6. 提案分布の改良 7. 事前学習とテスト時計算の交換 8. 議論と今後の課題 2
想定読者 LLM の性能改善に興味を持つ研究者・開発者 ▶ 計算資源の最適化に関心のあるML 実務者 ▶ テスト時計算と事前学習のトレードオフを検討する意思決定者 ▶ 3
用語 PRM (Process Reward Model): プロセス報酬モデル、解答過程の各ステップを評価 ▶ ORM (Outcome Reward
Model): 結果報酬モデル、最終結果のみを評価 ▶ FLOPs: 浮動小数点演算回数、計算量の指標 ▶ best-of-N: N 個の候補から最良を選択する手法 ▶ ビーム探索: 複数の候補を並行して探索する手法 ▶ MCMC: マルコフ連鎖モンテカルロ法 ▶ R 値: 推論/ 事前学習トークン比 ▶ テスト時計算: 推論時に追加的に行う計算処理 ▶ 提案分布: モデルが生成する確率分布 ▶ 4
1. Introduction (1/2) 研究の背景と目的 テスト時計算のメリット LLM に人間のような「より長く考える」能力を付与する必要性 ▶ テスト時の追加計算による精度向上の可能性 -
既存研究における矛盾する結果の存在 - 系統的な分析の必要性 - 小型モデルでデータセンター規模LLM と同等性能の実現 ▶ 人間の監督なしでの自己改善の可能性 ▶ オンデバイス推論の実現可能性 ▶ 5
1. Introduction (2/2) 本研究の主要な発見 1. 問題難易度による最適戦略の違い 簡単な問題:逐次的なリビジョンが効果的 - 難しい問題:並列サンプリングと探索の組み合わせが効果的 -
2. 計算効率の大幅な改善 best-of-N ベースラインと比べて4 倍の効率化を達成 - 3. テスト時計算の有効性 一部のケースで事前学習よりも効率的であることを実証 - 6
2. テスト時計算の統一的視点 テスト時計算とは 2 つの主要アプローチ LLM が推論(inference )時に追加的に実行する計算処理のこと ▶ 1.
提案分布の修正 入力トークンの追加によるLLM 条件付き分布の変更 - 自己批判や反復的な改善による分布の改良 - RL inspired 手法による最適化 - 2. 検証器による出力修正 複数候補のサンプリングと事後評価 - プロセスベースの報酬モデルを用いた探索 - MCMC サンプリングに類似したフレームワーク - 7
3. テスト時計算の最適なスケーリング方法 (1/2) 核心的な問題設定 計算最適化の要素 与えられたプロンプトと計算予算下での最適な計算資源配分 ▶ 問題難易度に応じた計算戦略の適応的選択 ▶ リビジョンと並列サンプリングの比率調整
▶ 探索アルゴリズムの選択 ▶ best-of-N - ビーム探索 - 先読み探索 - 検証器の使用方法の最適化 ▶ 8
3. テスト時計算の最適なスケーリング方法 (2/2) 問題難易度の評価方法 1. 5 段階の難易度分類システム base LLM の性能に基づく分類
- 問題特性の定量的評価 - 2. 難易度評価の2 つのアプローチ Oracle 難易度:正解情報に基づく分類 - モデル予測難易度:検証器スコアに基づく分類 - 3. 実用的考慮事項 計算コストと精度のトレードオフ - 動的な難易度評価の必要性 - 9
4. 実験設定 データセット選択 ベースモデル MATH :高校数学コンペレベルの問題セット ▶ 12,000 訓練問題 -
500 テスト問題 - 基礎知識よりも推論能力が要求される - PaLM 2-S* (Codey) ▶ 非自明な性能を示すが飽和していない - 現代のLLM の代表的な性能レベル - テスト時計算の効果測定に適した性能帯 - 10
5. 検証器によるテスト時計算のスケーリング (1/2) PRM 学習の改良 回答集約の最適化 クラウドワーカーラベルからの脱却 ▶ モンテカルロロールアウトの活用 -
ステップごとの正解確率推定 - ORM ベースラインを上回る性能を実現 ▶ ステップ単位の集約 ▶ 最終ステップのスコアを採用 - 回答間の集約 ▶ 重み付きbest-of-N 選択の導入 - 11
5. 検証器によるテスト時計算のスケーリング (2/2) 探索手法の詳細比較 1. best-of-N weighted N 個の独立サンプルから最良を選択 -
基本的なベースライン手法 - 2. ビーム探索 ステップごとにN 個のビームを維持 - 探索空間の効率的な絞り込み - 3. 先読み探索 k-step の先読みによる評価精度の向上 - 計算コストと精度のバランス - 12
分析結果 低計算予算での探索の有効性 ▶ 問題難易度による最適戦略の変化 ▶ 計算最適化による4 倍の効率化達成 ▶ 13
6. 提案分布の改良 (1/2) リビジョンモデルの学習アプローチ 1. 基本設計 誤答から正答へ至る軌跡でのモデル微調整 - 文字編集距離に基づく相関付け -
最大4 つの前回回答の参照 - 2. データ生成方法 並列サンプリングによる初期回答群の生成 - 編集距離に基づく誤答- 正答ペアの構築 - コンテキストサイズの動的調整 - 14
6. 提案分布の改良 (2/2) テスト時の利用方法と分析結果 1. 実装詳細 逐次的リビジョンチェーンの生成 - 多数決/ 検証器による最終回答選択
- コンテキストウィンドウのスライディング - 2. 効果分析 逐次的リビジョンと並列サンプリングの相補性 - 問題難易度による最適比率の変化 - 計算最適化による4 倍の効率改善 - 15
7. 事前学習とテスト時計算の交換 (1/2) 問題設定の詳細 1. 比較フレームワーク 総FLOPs 予算の固定 - パラメータ数固定、学習データ量可変
- 推論/ 事前学習トークン比(R) の分析 - 2. FLOPs 換算方法 事前学習:6ND_pretrain - 推論時:2ND_inference - R 値による比較シナリオ設定 - 16
7. 事前学習とテスト時計算の交換 (2/2) 主要な知見 1. 簡単/ 中程度の問題 テスト時計算が事前学習より効率的 - R<<1
の場合に特に顕著な優位性 - 2. 難しい問題 事前学習の方が効果的 - R>>1 でその傾向が強化 - 3. 総合的な示唆 完全な1:1 交換は不可能 - 問題特性に応じた使い分けの必要性 - 17
8. 議論と今後の課題 本研究の主要な成果 問題難易度に応じた計算最適化戦略の確立 ▶ 2-4 倍の計算効率改善の実証 ▶ テスト時計算の有効性と限界の明確化 ▶
18
今後の研究課題 1. 複数手法の統合 PRM ツリー探索とリビジョンの組み合わせ - 批評と改訂アプローチの統合 - 2. 効率的な難易度評価
計算コストの低減 - 動的な評価戦略の開発 - 3. 計算統合の展望 反復的な自己改善ループの実現 - テスト時計算出力の基本モデルへの蒸留 - 19
まとめ 主要な貢献 実践的な意義 テスト時計算の系統的な分析フレームワークの提案 ▶ 問題難易度に基づく計算最適化戦略の確立 ▶ テスト時計算と事前学習の交換可能性の実証 ▶ 小規模モデルの性能向上への道筋
▶ 計算資源の効率的な活用方法の提示 ▶ 自己改善システムへの応用可能性 ▶ 20