Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMのテスト時計算最適化に関する研究
Search
ymgc
January 12, 2025
Technology
0
5
LLMのテスト時計算最適化に関する研究
ymgc
January 12, 2025
Tweet
Share
More Decks by ymgc
See All by ymgc
テスト駆動開発(TDD)入門
__ymgc__
0
15
AI に特化した品質特性のテスト
__ymgc__
1
28
AIを活用したソフトウェアテスト技術 - ISTQB Foundation Level - AI Testing (CT-AI)
__ymgc__
1
22
Machines of Loving Grace - AIはどのように世界をより良く変えるか -
__ymgc__
1
48
ファシリテーションの技術
__ymgc__
2
49
(論文読み)BigCodeBench: 多様な関数呼び出しと複雑な指示を用いたコード生成のベンチマーキング
__ymgc__
1
42
(論文読み)Very Large-Scale Multi-Agent Simulation in AgentScope
__ymgc__
1
39
7 POWERS
__ymgc__
1
32
自己組織化系のベイズ力学
__ymgc__
1
46
Other Decks in Technology
See All in Technology
ソフトウェア開発における「パーフェクトな意思決定」/Perfect Decision-Making in Software Development
yayoi_dd
2
2.7k
Unsafe.BitCast のすゝめ。
nenonaninu
0
160
組織に自動テストを書く文化を根付かせる戦略(2024冬版) / Building Automated Test Culture 2024 Winter Edition
twada
PRO
26
7.1k
DUSt3R, MASt3R, MASt3R-SfM にみる3D基盤モデル
spatial_ai_network
3
510
Unlearn Product Development - Unleashed Edition
lemiorhan
PRO
2
170
最近のSfM手法まとめ - COLMAP / GLOMAPを中心に -
kwchrk
8
1.8k
普通のエンジニアがLaravelコアチームメンバーになるまで
avosalmon
0
670
30分でわかるデータ分析者のためのディメンショナルモデリング #datatechjp / 20250120
kazaneya
PRO
17
4k
.NET AspireでAzure Functionsやクラウドリソースを統合する
tsubakimoto_s
0
140
Formal Development of Operating Systems in Rust
riru
1
380
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
6
54k
Zero Data Loss Autonomous Recovery Service サービス概要
oracle4engineer
PRO
1
5k
Featured
See All Featured
Into the Great Unknown - MozCon
thekraken
34
1.6k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
2
160
Designing for humans not robots
tammielis
250
25k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.1k
Designing Experiences People Love
moore
139
23k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.4k
Music & Morning Musume
bryan
46
6.3k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
97
17k
Designing on Purpose - Digital PM Summit 2013
jponch
116
7k
Measuring & Analyzing Core Web Vitals
bluesmoon
5
190
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.3k
Being A Developer After 40
akosma
89
590k
Transcript
LLM のテスト時計算最適化に関する研究 スケーリング方法の系統的分析 Scaling LLM Test-Time Compute Optimally can be
More Effective than Scaling Model Parameters https://arxiv.org/abs/2408.03314 1
目次 1. Introduction 2. テスト時計算の統一的視点 3. テスト時計算の最適なスケーリング方法 4. 実験設定 5.
検証器によるテスト時計算のスケーリング 6. 提案分布の改良 7. 事前学習とテスト時計算の交換 8. 議論と今後の課題 2
想定読者 LLM の性能改善に興味を持つ研究者・開発者 ▶ 計算資源の最適化に関心のあるML 実務者 ▶ テスト時計算と事前学習のトレードオフを検討する意思決定者 ▶ 3
用語 PRM (Process Reward Model): プロセス報酬モデル、解答過程の各ステップを評価 ▶ ORM (Outcome Reward
Model): 結果報酬モデル、最終結果のみを評価 ▶ FLOPs: 浮動小数点演算回数、計算量の指標 ▶ best-of-N: N 個の候補から最良を選択する手法 ▶ ビーム探索: 複数の候補を並行して探索する手法 ▶ MCMC: マルコフ連鎖モンテカルロ法 ▶ R 値: 推論/ 事前学習トークン比 ▶ テスト時計算: 推論時に追加的に行う計算処理 ▶ 提案分布: モデルが生成する確率分布 ▶ 4
1. Introduction (1/2) 研究の背景と目的 テスト時計算のメリット LLM に人間のような「より長く考える」能力を付与する必要性 ▶ テスト時の追加計算による精度向上の可能性 -
既存研究における矛盾する結果の存在 - 系統的な分析の必要性 - 小型モデルでデータセンター規模LLM と同等性能の実現 ▶ 人間の監督なしでの自己改善の可能性 ▶ オンデバイス推論の実現可能性 ▶ 5
1. Introduction (2/2) 本研究の主要な発見 1. 問題難易度による最適戦略の違い 簡単な問題:逐次的なリビジョンが効果的 - 難しい問題:並列サンプリングと探索の組み合わせが効果的 -
2. 計算効率の大幅な改善 best-of-N ベースラインと比べて4 倍の効率化を達成 - 3. テスト時計算の有効性 一部のケースで事前学習よりも効率的であることを実証 - 6
2. テスト時計算の統一的視点 テスト時計算とは 2 つの主要アプローチ LLM が推論(inference )時に追加的に実行する計算処理のこと ▶ 1.
提案分布の修正 入力トークンの追加によるLLM 条件付き分布の変更 - 自己批判や反復的な改善による分布の改良 - RL inspired 手法による最適化 - 2. 検証器による出力修正 複数候補のサンプリングと事後評価 - プロセスベースの報酬モデルを用いた探索 - MCMC サンプリングに類似したフレームワーク - 7
3. テスト時計算の最適なスケーリング方法 (1/2) 核心的な問題設定 計算最適化の要素 与えられたプロンプトと計算予算下での最適な計算資源配分 ▶ 問題難易度に応じた計算戦略の適応的選択 ▶ リビジョンと並列サンプリングの比率調整
▶ 探索アルゴリズムの選択 ▶ best-of-N - ビーム探索 - 先読み探索 - 検証器の使用方法の最適化 ▶ 8
3. テスト時計算の最適なスケーリング方法 (2/2) 問題難易度の評価方法 1. 5 段階の難易度分類システム base LLM の性能に基づく分類
- 問題特性の定量的評価 - 2. 難易度評価の2 つのアプローチ Oracle 難易度:正解情報に基づく分類 - モデル予測難易度:検証器スコアに基づく分類 - 3. 実用的考慮事項 計算コストと精度のトレードオフ - 動的な難易度評価の必要性 - 9
4. 実験設定 データセット選択 ベースモデル MATH :高校数学コンペレベルの問題セット ▶ 12,000 訓練問題 -
500 テスト問題 - 基礎知識よりも推論能力が要求される - PaLM 2-S* (Codey) ▶ 非自明な性能を示すが飽和していない - 現代のLLM の代表的な性能レベル - テスト時計算の効果測定に適した性能帯 - 10
5. 検証器によるテスト時計算のスケーリング (1/2) PRM 学習の改良 回答集約の最適化 クラウドワーカーラベルからの脱却 ▶ モンテカルロロールアウトの活用 -
ステップごとの正解確率推定 - ORM ベースラインを上回る性能を実現 ▶ ステップ単位の集約 ▶ 最終ステップのスコアを採用 - 回答間の集約 ▶ 重み付きbest-of-N 選択の導入 - 11
5. 検証器によるテスト時計算のスケーリング (2/2) 探索手法の詳細比較 1. best-of-N weighted N 個の独立サンプルから最良を選択 -
基本的なベースライン手法 - 2. ビーム探索 ステップごとにN 個のビームを維持 - 探索空間の効率的な絞り込み - 3. 先読み探索 k-step の先読みによる評価精度の向上 - 計算コストと精度のバランス - 12
分析結果 低計算予算での探索の有効性 ▶ 問題難易度による最適戦略の変化 ▶ 計算最適化による4 倍の効率化達成 ▶ 13
6. 提案分布の改良 (1/2) リビジョンモデルの学習アプローチ 1. 基本設計 誤答から正答へ至る軌跡でのモデル微調整 - 文字編集距離に基づく相関付け -
最大4 つの前回回答の参照 - 2. データ生成方法 並列サンプリングによる初期回答群の生成 - 編集距離に基づく誤答- 正答ペアの構築 - コンテキストサイズの動的調整 - 14
6. 提案分布の改良 (2/2) テスト時の利用方法と分析結果 1. 実装詳細 逐次的リビジョンチェーンの生成 - 多数決/ 検証器による最終回答選択
- コンテキストウィンドウのスライディング - 2. 効果分析 逐次的リビジョンと並列サンプリングの相補性 - 問題難易度による最適比率の変化 - 計算最適化による4 倍の効率改善 - 15
7. 事前学習とテスト時計算の交換 (1/2) 問題設定の詳細 1. 比較フレームワーク 総FLOPs 予算の固定 - パラメータ数固定、学習データ量可変
- 推論/ 事前学習トークン比(R) の分析 - 2. FLOPs 換算方法 事前学習:6ND_pretrain - 推論時:2ND_inference - R 値による比較シナリオ設定 - 16
7. 事前学習とテスト時計算の交換 (2/2) 主要な知見 1. 簡単/ 中程度の問題 テスト時計算が事前学習より効率的 - R<<1
の場合に特に顕著な優位性 - 2. 難しい問題 事前学習の方が効果的 - R>>1 でその傾向が強化 - 3. 総合的な示唆 完全な1:1 交換は不可能 - 問題特性に応じた使い分けの必要性 - 17
8. 議論と今後の課題 本研究の主要な成果 問題難易度に応じた計算最適化戦略の確立 ▶ 2-4 倍の計算効率改善の実証 ▶ テスト時計算の有効性と限界の明確化 ▶
18
今後の研究課題 1. 複数手法の統合 PRM ツリー探索とリビジョンの組み合わせ - 批評と改訂アプローチの統合 - 2. 効率的な難易度評価
計算コストの低減 - 動的な評価戦略の開発 - 3. 計算統合の展望 反復的な自己改善ループの実現 - テスト時計算出力の基本モデルへの蒸留 - 19
まとめ 主要な貢献 実践的な意義 テスト時計算の系統的な分析フレームワークの提案 ▶ 問題難易度に基づく計算最適化戦略の確立 ▶ テスト時計算と事前学習の交換可能性の実証 ▶ 小規模モデルの性能向上への道筋
▶ 計算資源の効率的な活用方法の提示 ▶ 自己改善システムへの応用可能性 ▶ 20