Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMのテスト時計算最適化に関する研究
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ymgc
January 12, 2025
Technology
130
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LLMのテスト時計算最適化に関する研究
ymgc
January 12, 2025
More Decks by ymgc
See All by ymgc
予測する心 - 知覚と行為の統一理論
__ymgc__
0
130
テスト駆動開発(TDD)入門
__ymgc__
0
180
AI に特化した品質特性のテスト
__ymgc__
1
110
AIを活用したソフトウェアテスト技術 - ISTQB Foundation Level - AI Testing (CT-AI)
__ymgc__
1
160
Machines of Loving Grace - AIはどのように世界をより良く変えるか -
__ymgc__
1
160
ファシリテーションの技術
__ymgc__
2
150
(論文読み)BigCodeBench: 多様な関数呼び出しと複雑な指示を用いたコード生成のベンチマーキング
__ymgc__
1
160
(論文読み)Very Large-Scale Multi-Agent Simulation in AgentScope
__ymgc__
1
180
7 POWERS
__ymgc__
1
120
Other Decks in Technology
See All in Technology
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1.3k
AIAU_UMEMOGU_ninomiya_slide
ninomiya_ii
0
240
AWS Security Agent といっしょに脅威モデリングをやってみよう
amarelo_n24
1
180
コミュニティの有益性 ~JAWS Days 2026 での体験を通して~ / The Benefits of a Community ~Through My Experience at JAWS Days 2026~
seike460
PRO
0
180
AIチャット検索改善の3週間
kworkdev
PRO
2
140
AI時代のコスト管理を考えよう〜明日から使える実践AWSノウハウ~
yoshimi0227
0
310
2026 TECHFRESH 畢業分享會 - 開發日常大解密!從領域驅動到企業級上線
line_developers_tw
PRO
0
1.3k
SONiCのLinuxベースを活かしたZabbix監視
sonic
0
230
200個のGitHubリポジトリを横断調査したかった
icck
0
140
LayerX コーポレートエンジニアリング室におけるサプライチェーンセキュリティへの取り組み / Supply Chain Security at LayerX Corporate Engineering
yuyatakeyama
2
680
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
1.3k
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
3
570
Featured
See All Featured
Code Review Best Practice
trishagee
74
20k
Docker and Python
trallard
47
3.9k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Designing for Performance
lara
611
70k
From π to Pie charts
rasagy
0
210
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
610
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
750
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
Why Our Code Smells
bkeepers
PRO
340
58k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
Unsuck your backbone
ammeep
672
58k
Transcript
LLM のテスト時計算最適化に関する研究 スケーリング方法の系統的分析 Scaling LLM Test-Time Compute Optimally can be
More Effective than Scaling Model Parameters https://arxiv.org/abs/2408.03314 1
目次 1. Introduction 2. テスト時計算の統一的視点 3. テスト時計算の最適なスケーリング方法 4. 実験設定 5.
検証器によるテスト時計算のスケーリング 6. 提案分布の改良 7. 事前学習とテスト時計算の交換 8. 議論と今後の課題 2
想定読者 LLM の性能改善に興味を持つ研究者・開発者 ▶ 計算資源の最適化に関心のあるML 実務者 ▶ テスト時計算と事前学習のトレードオフを検討する意思決定者 ▶ 3
用語 PRM (Process Reward Model): プロセス報酬モデル、解答過程の各ステップを評価 ▶ ORM (Outcome Reward
Model): 結果報酬モデル、最終結果のみを評価 ▶ FLOPs: 浮動小数点演算回数、計算量の指標 ▶ best-of-N: N 個の候補から最良を選択する手法 ▶ ビーム探索: 複数の候補を並行して探索する手法 ▶ MCMC: マルコフ連鎖モンテカルロ法 ▶ R 値: 推論/ 事前学習トークン比 ▶ テスト時計算: 推論時に追加的に行う計算処理 ▶ 提案分布: モデルが生成する確率分布 ▶ 4
1. Introduction (1/2) 研究の背景と目的 テスト時計算のメリット LLM に人間のような「より長く考える」能力を付与する必要性 ▶ テスト時の追加計算による精度向上の可能性 -
既存研究における矛盾する結果の存在 - 系統的な分析の必要性 - 小型モデルでデータセンター規模LLM と同等性能の実現 ▶ 人間の監督なしでの自己改善の可能性 ▶ オンデバイス推論の実現可能性 ▶ 5
1. Introduction (2/2) 本研究の主要な発見 1. 問題難易度による最適戦略の違い 簡単な問題:逐次的なリビジョンが効果的 - 難しい問題:並列サンプリングと探索の組み合わせが効果的 -
2. 計算効率の大幅な改善 best-of-N ベースラインと比べて4 倍の効率化を達成 - 3. テスト時計算の有効性 一部のケースで事前学習よりも効率的であることを実証 - 6
2. テスト時計算の統一的視点 テスト時計算とは 2 つの主要アプローチ LLM が推論(inference )時に追加的に実行する計算処理のこと ▶ 1.
提案分布の修正 入力トークンの追加によるLLM 条件付き分布の変更 - 自己批判や反復的な改善による分布の改良 - RL inspired 手法による最適化 - 2. 検証器による出力修正 複数候補のサンプリングと事後評価 - プロセスベースの報酬モデルを用いた探索 - MCMC サンプリングに類似したフレームワーク - 7
3. テスト時計算の最適なスケーリング方法 (1/2) 核心的な問題設定 計算最適化の要素 与えられたプロンプトと計算予算下での最適な計算資源配分 ▶ 問題難易度に応じた計算戦略の適応的選択 ▶ リビジョンと並列サンプリングの比率調整
▶ 探索アルゴリズムの選択 ▶ best-of-N - ビーム探索 - 先読み探索 - 検証器の使用方法の最適化 ▶ 8
3. テスト時計算の最適なスケーリング方法 (2/2) 問題難易度の評価方法 1. 5 段階の難易度分類システム base LLM の性能に基づく分類
- 問題特性の定量的評価 - 2. 難易度評価の2 つのアプローチ Oracle 難易度:正解情報に基づく分類 - モデル予測難易度:検証器スコアに基づく分類 - 3. 実用的考慮事項 計算コストと精度のトレードオフ - 動的な難易度評価の必要性 - 9
4. 実験設定 データセット選択 ベースモデル MATH :高校数学コンペレベルの問題セット ▶ 12,000 訓練問題 -
500 テスト問題 - 基礎知識よりも推論能力が要求される - PaLM 2-S* (Codey) ▶ 非自明な性能を示すが飽和していない - 現代のLLM の代表的な性能レベル - テスト時計算の効果測定に適した性能帯 - 10
5. 検証器によるテスト時計算のスケーリング (1/2) PRM 学習の改良 回答集約の最適化 クラウドワーカーラベルからの脱却 ▶ モンテカルロロールアウトの活用 -
ステップごとの正解確率推定 - ORM ベースラインを上回る性能を実現 ▶ ステップ単位の集約 ▶ 最終ステップのスコアを採用 - 回答間の集約 ▶ 重み付きbest-of-N 選択の導入 - 11
5. 検証器によるテスト時計算のスケーリング (2/2) 探索手法の詳細比較 1. best-of-N weighted N 個の独立サンプルから最良を選択 -
基本的なベースライン手法 - 2. ビーム探索 ステップごとにN 個のビームを維持 - 探索空間の効率的な絞り込み - 3. 先読み探索 k-step の先読みによる評価精度の向上 - 計算コストと精度のバランス - 12
分析結果 低計算予算での探索の有効性 ▶ 問題難易度による最適戦略の変化 ▶ 計算最適化による4 倍の効率化達成 ▶ 13
6. 提案分布の改良 (1/2) リビジョンモデルの学習アプローチ 1. 基本設計 誤答から正答へ至る軌跡でのモデル微調整 - 文字編集距離に基づく相関付け -
最大4 つの前回回答の参照 - 2. データ生成方法 並列サンプリングによる初期回答群の生成 - 編集距離に基づく誤答- 正答ペアの構築 - コンテキストサイズの動的調整 - 14
6. 提案分布の改良 (2/2) テスト時の利用方法と分析結果 1. 実装詳細 逐次的リビジョンチェーンの生成 - 多数決/ 検証器による最終回答選択
- コンテキストウィンドウのスライディング - 2. 効果分析 逐次的リビジョンと並列サンプリングの相補性 - 問題難易度による最適比率の変化 - 計算最適化による4 倍の効率改善 - 15
7. 事前学習とテスト時計算の交換 (1/2) 問題設定の詳細 1. 比較フレームワーク 総FLOPs 予算の固定 - パラメータ数固定、学習データ量可変
- 推論/ 事前学習トークン比(R) の分析 - 2. FLOPs 換算方法 事前学習:6ND_pretrain - 推論時:2ND_inference - R 値による比較シナリオ設定 - 16
7. 事前学習とテスト時計算の交換 (2/2) 主要な知見 1. 簡単/ 中程度の問題 テスト時計算が事前学習より効率的 - R<<1
の場合に特に顕著な優位性 - 2. 難しい問題 事前学習の方が効果的 - R>>1 でその傾向が強化 - 3. 総合的な示唆 完全な1:1 交換は不可能 - 問題特性に応じた使い分けの必要性 - 17
8. 議論と今後の課題 本研究の主要な成果 問題難易度に応じた計算最適化戦略の確立 ▶ 2-4 倍の計算効率改善の実証 ▶ テスト時計算の有効性と限界の明確化 ▶
18
今後の研究課題 1. 複数手法の統合 PRM ツリー探索とリビジョンの組み合わせ - 批評と改訂アプローチの統合 - 2. 効率的な難易度評価
計算コストの低減 - 動的な評価戦略の開発 - 3. 計算統合の展望 反復的な自己改善ループの実現 - テスト時計算出力の基本モデルへの蒸留 - 19
まとめ 主要な貢献 実践的な意義 テスト時計算の系統的な分析フレームワークの提案 ▶ 問題難易度に基づく計算最適化戦略の確立 ▶ テスト時計算と事前学習の交換可能性の実証 ▶ 小規模モデルの性能向上への道筋
▶ 計算資源の効率的な活用方法の提示 ▶ 自己改善システムへの応用可能性 ▶ 20