SOTAのさらに先へ：厳しい推論制約下での高性能モデルのPost-Training

SOTAのさらに先へ厳しい推論制約下での高性能モデルの Post-Training Pushing the Limits: Post-Training High-Capability Models
under Strict Inference 2026年5月22日 @ 関西Kaggler会 Sakana AI Hiroshi Yoshihara (RabotniKuma) 1 1

チーム & 結果 Team: FishMath Public LB 44 (27位) Private
LB 41.5 (899位) 2 2

コンペ概要: AIMO-3 AI Mathematical Olympiad Prize 第 3 回賞金総額
$10M 問題: 110 問 (Reference 10 + Public 50 + Private 50 ) 全問オリジナル（汚染リスクなし）範囲: 代数・組合せ・幾何・数論今回は難易度↑ (National Olympiad ～ IMO 級) 同じsubmissionを2回実行して平均点で評価 3 3

背景・課題 gpt-oss-120b は AIME'25 で既に ~98% 既存ベンチは飽和、データ汚染も疑い Kaggle 制約: 5h
/ H100 x 1 Post-training と推論設計を同時に最適化する必要 4 4

アプローチ 1. 汚染なし評価ベンチを自作 2. SFT で正答性を底上げ 3. RL (GRPO) で分布を尖らせる
4. 推論最適化（温度・EAGLE-3）で 5h に収めるシンプルさと実行安定性を最優先 5 5

ベンチマーク構成 Benchmark Source Number of Problems AIMO 30 AIME 2025
30 HMMT Feb 2025 13 HMMT Nov 2025 22 Brumo 2025 16 CMIMC 2025 15 APEX 2025 6 SMT 2025 25 AMO-Bench 20 Nemotron-Math-v2 31 AoPS 2025 18 JMO 15 IMO-Answer Bench 44 Total 285 285 problems Primary category composition Combinatorics: 91 (31.9%) Algebra: 65 (22.8%) Geometry: 48 (16.8%) Number Theory: 45 (15.8%) Unlabeled: 36 (12.6%) 6 6

評価ベンチマーク 285 問動機: gpt-oss-120b は AIME'25 で ~98% →
既存ベンチ飽和 + 汚染懸念真の zero-shot 推論能力を測れる汚染なし整数回答ベンチを自作 7 7

ベンチマークのソース 2025 AIME / HMMT (Feb, Nov) — 最新版で汚染リスク低 MathArena
由来の整数問題 JMO — 英語学習データの外側を狙う Nemotron-Math-v2 — gpt-oss-120b が low/med effort で全滅 AoPS 2025 — LLM ループで書き起こし & 検証 success rate ∈ (0, 1) のみ採用 IMO-AnswerBench — proof 問題を整数回答に再構成 8 8

時間制約ベンチ (50 問) 目的: Kaggle 環境（5h / H100 x 1）を再現
ソース: Crystal-Math-Preview 提出 runtime に合うように問題を選定温度・EAGLE-3・wall time の検証に使用 9 9

評価指標 pass@1 — 平均正答率（1 問あたり 16 trace） Maj@8 — 多数決精度（2,000
bootstrap で安定化） Coverage = pass@16 — 16 試行で 1 回でも正解した割合 TIR あり / なしの両モードで測定 10 10

SFT データ構築方針難問フィルタ + 強モデルで再生成ソース: Nemotron-Math-v2, Crystal-Math-Preview （評価ベンチと重複する問題は除外）各問題で
4 trace 生成 → 正常終了 & 正答のみ採用検証: 整数は完全一致、非整数は gpt-oss-120b judge 11 11

SFT データ内訳合計 22,287 traces / 669.7M tokens ソース構成
traces tokens Nemotron-Math-v2 (No TIR) Kimi-K2.5, DS-V3.2 8,403 195.7M Nemotron-Math-v2 (TIR) Kimi-K2.5, GLM-4.7 1,296 32.8M Crystal-Math (No TIR) Kimi-K2.5, GLM-5 8,073 290.3M Crystal-Math (TIR) Kimi-K2.5 4,515 150.9M TIR を 3× upsampling → 1 epoch あたり 551M / 1.037B tokens を TIR が占有 12 12

モデル並列の用語略称名称仕組み PP Pipeline Parallel レイヤーを縦に分割し GPU 間でステージとして流す
TP Tensor Parallel 1 レイヤーの重み行列を横方向に分割し並列計算 EP Expert Parallel MoE の各 expert を別 GPU に配置しルーティング後に分散実行 13 13

SFT 学習レシピ Megatron-SWIFT, 4 node × 8 GPU PP=4, attention
TP=4, MoE EP=8 Max seq 65,536 + sequence packing Adam (β=0.9/0.95), LR 8e-6 → 8e-7 cosine, warmup 5% Weight decay 0.1, grad clip 1.0, bf16 Global batch 256 × 10 epoch ≈ 10.37B tokens 14 14

SFT 結果（TIR あり） pass@1 Maj@8 Coverage Base 72.61 77.86 92.28
Epoch 2 68.60 75.88 87.02 Epoch 5 70.88 76.85 88.77 Epoch 10 73.38 78.62 90.88 TIR なしでも Base 64.65 → Ep10 65.79 (pass@1) 15 15

SFT 観察 2ep / 5ep は一旦劣化、10ep で初めて Base 超え
Coverage は Base が最大 — SFT は解空間を広げない改善の正体は「平均正答性と多数決の信頼性向上」厳選した難問 trace への反復露出が効く 16 16

GRPO とは？ Group Relative Policy Optimization 1 prompt から K
個の trace をサンプルグループ内の平均報酬を基準に相対 advantage を計算 critic（価値関数）不要 → メモリ・計算が軽い数学・コード推論 RL のデファクトに Shao et al., 2024 (DeepSeek-Math) · arXiv:2402.03300 17 17

RL データ準備 allenai/Dolci-Think-RL-7B の数学サブセット 60,360 → 13,358 問 (≈22%) フィルタは
gpt-oss-120b (high reasoning + TIR) で 16 試行して決定: 答えが整数 [0, 99999] 正答数が 0–11 / 16（= 確実に解ける問題は除外）「確率変動の大きい境界問題」だけを残し RL の学習効率を上げる 18 18

RL アルゴリズムとレシピ GRPO + Clip-Higher + Dynamic Sampling (DAPO) +
TIS + KL loss を除去 Max seq 65,536, samples/prompt = 16 Rollout batch 64, global batch 1024 AdamW (β=0.9/0.98), LR 1e-6 constant Clip range [0.2, 0.28], KL=0, entropy=0 Long-tail 対策に partial rollout checkpoint = step 70 を採用 DAPO: arXiv:2503.14476 · partial rollout: arXiv:2507.20534 19 19

Partial Rollout とは？通常の GRPO は K 本の rollout が全部終わるまで待つ
→ 1 本でも長いと律速 (long-tail problem) rollout を途中で打ち切り、次 iteration で続きを生成待ち時間を削減 → throughput 改善続きは最新ポリシーで生成 → 軽い off-policy 性 arXiv:2507.20534 20 20

RL 結果 TIR あり pass@1 Maj@8 Coverage Base 72.61 77.86
92.28 RL 73.61 78.78 90.17 TIR なし: pass@1 64.65 → 65.61（Maj@8/Coverage はやや低下） 21 21

SFT vs RL の挙動差 Public LB ピーク: SFT 43 /
RL 44 RL は正解寄りに確率質量を集中 → pass@1 / Maj@8 ↑ / Coverage ↓ RL モデルは生成時間がやや長い → 5h+30min 余裕で動かすには T ≤ 0.8 に制約 SFT は T=1.0 でも完走 → 最終提出は SFT 22 22

温度ごとの性能比較 67 68 69 70 71 72 73 74 75
Accuracy (%) baseline Mean accuracy 72 74 76 78 80 Accuracy (%) baseline Bootstrap majority 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 Temperature 82 84 86 88 90 92 94 Problems solved (%) baseline Pass coverage 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 Temperature 0 5 10 15 20 25 30 35 40 45 Mean tokens (k) ± 1 std baseline Token length 23 23

5h 制約下での温度選択 Temperature sweep under a five-hour submission budget Pass@1
72 72.5 73 73.5 0.6 0.7 0.8 0.9 1.0 Score (%) Maj@8 76.5 77 77.5 78 78.5 0.6 0.7 0.8 0.9 1.0 Coverage 89 90 91 92 0.6 0.7 0.8 0.9 1.0 Decoding temperature T RL (T <= 0.8 feasible) SFT (T = 1.0 feasible) Base RL T > 0.8 Selected 24 24

推論最適化: 温度の検証 T=0.5 → 1.0 で精度↑、トークン長も↑ pass@1 / Maj@8
ともに T=1.0 がピーク T=1.5 では劣化 Coverage は T≈0.6 で頭打ち 25 25

EAGLE-3 とは？投機的デコーディング (speculative decoding) の一種小さな draft model が複数トークンを先読み
target model が並列に検証 → 受理ぶんだけ採用出力分布は元モデルと等価（lossless） EAGLE-3 は draft に target の複数層の隠れ状態を入力 → accept rate↑ EAGLE-3: arXiv:2503.01840 · speculative decoding: arXiv:2211.17192 26 26

推論最適化: EAGLE-3 50 問ベンチでの wall time: speculative なし: 342 min
T=0.5 + EAGLE-3: 226 min（accept 0.50） T=1.0 + EAGLE-3: 253 min（accept 0.37） 5h 制約内で T=1.0 が走り切る 27 27

SAR とは？ Self-Aggregation Refinement 複数の完全な reasoning trace を 1 つの
prompt に連結モデルに「これらを総合してより良い答えを出して」と再生成多数決とは違い、推論過程そのものを参照できる期待 +16.9% だが context 長を強く消費 Recursive Self-Aggregation (RSA) ベース · arXiv:2509.26626 28 28

GenSelect とは？ AIMO-2 優勝チーム (Moshkov et al., 2025) 提案複数の候補解を並べ、モデル自身に最良を選ばせる
候補数が多い時はトーナメント方式多数決が割れた時のタイブレーカーとして使える match=4 で +8pt の改善ポテンシャル arXiv:2504.16891 29 29

採用しなかった推論技法 SAR — 期待 +16.9% だが context 制約で実用困難 GenSelect —
match=4 で +8pt の伸びしろ、ただし分散大 DFlash — 低温度では速いが T=1.0 では EAGLE-3 優位 → シンプルな温度スケーリング + EAGLE-3 が最安定 DFlash: Chen et al., 2026 · arXiv:2602.06036 30 30

最終提出採用: SFT モデル @ T=1.0 + EAGLE-3 RL モデルは推論オーバーヘッドで
T ≤ 0.8 制約 → 採用見送り 30 分のセーフティマージンを確保 Public LB 43 Private LB 41.5 31 31

Key Takeaways Post-training と推論設計は結合して最適化精度だけでなく遅延・実行安定性を見るコンペの評価は2回のみ実行の平均点 → 学習による改善幅 < ランダム性
32 32

Resources Kaggle Writeup (Pushing the Limits) SakanaAI/gpt-oss-120b-sft-aimo3-fishmath SakanaAI/FishMath-SFT-Data Thank you!
33 33

SOTAのさらに先へ：厳しい推論制約下での高性能モデルのPost-Training

SOTAのさらに先へ：厳しい推論制約下での高性能モデルのPost-Training

Hiroshi Y (RabotniKuma)

More Decks by Hiroshi Y (RabotniKuma)

Other Decks in Research

Featured

Transcript

SOTAのさらに先へ厳しい推論制約下での高性能モデルの Post-Training Pushing the Limits: Post-Training High-Capability Models

チーム & 結果 Team: FishMath Public LB 44 (27位) Private

コンペ概要: AIMO-3 AI Mathematical Olympiad Prize 第 3 回賞金総額

背景・課題 gpt-oss-120b は AIME'25 で既に ~98% 既存ベンチは飽和、データ汚染も疑い Kaggle 制約: 5h

アプローチ 1. 汚染なし評価ベンチを自作 2. SFT で正答性を底上げ 3. RL (GRPO) で分布を尖らせる

ベンチマーク構成 Benchmark Source Number of Problems AIMO 30 AIME 2025

評価ベンチマーク 285 問動機: gpt-oss-120b は AIME'25 で ~98% →

ベンチマークのソース 2025 AIME / HMMT (Feb, Nov) — 最新版で汚染リスク低 MathArena

時間制約ベンチ (50 問) 目的: Kaggle 環境（5h / H100 x 1）を再現

評価指標 pass@1 — 平均正答率（1 問あたり 16 trace） Maj@8 — 多数決精度（2,000

SFT データ構築方針難問フィルタ + 強モデルで再生成ソース: Nemotron-Math-v2, Crystal-Math-Preview （評価ベンチと重複する問題は除外）各問題で

SFT データ内訳合計 22,287 traces / 669.7M tokens ソース構成

モデル並列の用語略称名称仕組み PP Pipeline Parallel レイヤーを縦に分割し GPU 間でステージとして流す

SFT 学習レシピ Megatron-SWIFT, 4 node × 8 GPU PP=4, attention

SFT 結果（TIR あり） pass@1 Maj@8 Coverage Base 72.61 77.86 92.28

SFT 観察 2ep / 5ep は一旦劣化、10ep で初めて Base 超え

GRPO とは？ Group Relative Policy Optimization 1 prompt から K

RL データ準備 allenai/Dolci-Think-RL-7B の数学サブセット 60,360 → 13,358 問 (≈22%) フィルタは

RL アルゴリズムとレシピ GRPO + Clip-Higher + Dynamic Sampling (DAPO) +

Partial Rollout とは？通常の GRPO は K 本の rollout が全部終わるまで待つ

RL 結果 TIR あり pass@1 Maj@8 Coverage Base 72.61 77.86

SFT vs RL の挙動差 Public LB ピーク: SFT 43 /

温度ごとの性能比較 67 68 69 70 71 72 73 74 75

5h 制約下での温度選択 Temperature sweep under a five-hour submission budget Pass@1

推論最適化: 温度の検証 T=0.5 → 1.0 で精度↑、トークン長も↑ pass@1 / Maj@8

EAGLE-3 とは？投機的デコーディング (speculative decoding) の一種小さな draft model が複数トークンを先読み

推論最適化: EAGLE-3 50 問ベンチでの wall time: speculative なし: 342 min

SAR とは？ Self-Aggregation Refinement 複数の完全な reasoning trace を 1 つの

GenSelect とは？ AIMO-2 優勝チーム (Moshkov et al., 2025) 提案複数の候補解を並べ、モデル自身に最良を選ばせる

採用しなかった推論技法 SAR — 期待 +16.9% だが context 制約で実用困難 GenSelect —

最終提出採用: SFT モデル @ T=1.0 + EAGLE-3 RL モデルは推論オーバーヘッドで

Key Takeaways Post-training と推論設計は結合して最適化精度だけでなく遅延・実行安定性を見るコンペの評価は2回のみ実行の平均点 → 学習による改善幅 < ランダム性

Resources Kaggle Writeup (Pushing the Limits) SakanaAI/gpt-oss-120b-sft-aimo3-fishmath SakanaAI/FishMath-SFT-Data Thank you!