long-running-tasks

© LayerX Inc.　 1 Long-running taskにおけるスケーリング則と検証器の役割 2026/5/28 AIエージェント設計勉強会株式会社LayerX
Ai Workforce事業部恩⽥壮恭

2 Confidential © 2025 LayerX Inc. 自己紹介 • 恩田壮恭（おんだまさのり） ◦
cipepser/cipe（さいぺ） • LayerX Ai Workforce事業部 • これまで ◦ 新卒で大手証券系SIerでネットワークエンジニア ◦ 暗号資産分野で新規事業立ち上げ ◦ TEEやPrivacyTechなど、技術を軸にした新規プロダクトの開発（LayerX歴6年） • 現在 ◦ Lead FDE（Forward Deployed Engineer）

Introduction

4 Confidential © 2025 LayerX Inc. METR長時間タスクのベンチマーク出典: https://metr.org/, 50%
Success, 2026/5/21アクセス Opus 4.6は12時間のタスクが 50%の確率で完了できる

5 Confidential © 2025 LayerX Inc. 本日のモチベーション長時間タスクの課題ステップ数が膨大になると、最後までタスクを完遂することが困難になる完遂するには、各ステップの成功確率を上げる、または失敗時のリトライや原因究明、復帰できる仕組みが必要
おもしろかった論文を紹介 Solving a Million-Step LLM Task with Zero Errors Elliot Meyerson et al. 2025/11 On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks Kaya Stechly et al. 2024/02 Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers Zhenting Qi et al. 2024/08

100万ステップのタスクをノーミスで解く

7 Confidential © 2025 LayerX Inc. Solving a Million-Step LLM
Task with Zero Errors 内容 • 最小粒度のサブタスクへの分解した際のスケーリング則 • サブタスクレベルの投票に基づくエラー訂正 ◦ First-to-ahead-by-k Voting • 相関エラーを減らすためのレッドフラッグ Authors Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, Hormoz Shahrzad, Olivier Francon, Conor F. Hayes, Xin Qiu, Babak Hodjat, Risto Miikkulainen published 2025/11

8 Confidential © 2025 LayerX Inc. タスク分割によるスケーリング則の定式化（1／3） • すべてのタスクを完了するために合計sステップが必要 •
固有のステップあたりの成功率をpとする ◦ 最悪のケース（確率pの正しい候補が確率1-pの単一の代替案と競合する）を仮定 • 各サブタスクのアクションを決定するためにk票の差が必要 ◦ First-to-ahead-by-k Voting 1 ステップ1 成功率 p 2 ステップ2 成功率 p ステップi k票の差で決定 s ステップs 全完了

9 Confidential © 2025 LayerX Inc. タスク分割によるスケーリング則の定式化（2／3）すべてのタスクが成功する確率p_fullを計算できる ※mはサブステップを分解した数だが、m=1とすると理解しやすい出典:
Solving a Million-Step LLM Task with Zero Errors (Elliot Meyerson et al., 2025/11)

10 Confidential © 2025 LayerX Inc. タスク分割によるスケーリング則の定式化（3／3） 100万ステップを高い確率で成功するために、kがそこまで大きくならない出典: Solving
a Million-Step LLM Task with Zero Errors (Elliot Meyerson et al., 2025/11), Figure 3

11 Confidential © 2025 LayerX Inc. LLM呼び出しコストのスケーリング則特にm=1であればにスケールする出典:
Solving a Million-Step LLM Task with Zero Errors (Elliot Meyerson et al., 2025/11)

12 Confidential © 2025 LayerX Inc. 信頼性の低い兆候: レッドフラグ • 論文では以下の2つの兆候があれば、リトライするなどで単位ステップの成功確率pを上
げる施策にも言及 ◦ 過度に応答時間が長いケース ◦ 誤ったフォーマットを伴う応答 • 「誤りである確率が著しく高い兆候」を見つけたらリトライしてしまうのも Long-running taskの実装では重要なヒューリスティックになる可能性

検証器に求められる「正誤判定」の質

14 Confidential © 2025 LayerX Inc. On the Self-Verification Limitations
of Large Language Models on Reasoning and Planning Tasks 内容 • LLMによる自己批判と、信頼できる検証器によるフィードバックでLLMが再考することの効果を検証注意 • 対象モデルがGPT-4 Authors Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati published 2024/02

15 Confidential © 2025 LayerX Inc. ３つの題材 Game of 24
概要 4つの数字と四則演算で24を作るパズル自己批判 (LLM) 提示された式が正しいかをLLMに判断させる信頼できる検証器 Pythonのプログラムで検証グラフ彩色概要隣接する頂点が同じ色にならないよう n色を割り当てる問題自己批判 (LLM) 同じ色になっていないかを判定させる信頼できる検証器エッジで結ばれた頂点の同色判定による不正解判断 STRIPSプランニング概要離散・決定論的空間での計画自動立案問題自己批判 (LLM) 実行可能な計画かを判断させる信頼できる検証器 PDDLによる記述と、初期からゴールへの到達性検証

16 Confidential © 2025 LayerX Inc. フィードバックの効果出典: On the
Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks (Kaya Stechly et al., 2024/02), Table 1 LLMによる自己批判が悪影響を与えている（G24とBWのみ批判の精度が高く、性能低下を低く抑えられた）標準プロンプト LLMによる自己批判 B.F.→Binary-Feedback F.E.F.→ First Error Feedback A.E.F. →All Error Feedback 二値のみのFBとさほど変わらない LLMかどうかというよりも、正しいか正しくないかを正確に判定できることが重要

17 Confidential © 2025 LayerX Inc. 反復回数とパフォーマンス出典: On the
Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks (Kaya Stechly et al., 2024/02), Figure 2 ▲: 信頼できる検証器 •: LLMによる自己批判信頼できる検証器は試行を繰り返すことで性能が上がっていくのに対し、LLMによる自己批判は繰り返しによってパフォーマンスが低下

相互一致による正しい回答の判定

19 Confidential © 2025 LayerX Inc. Mutual Reasoning Makes Smaller
LLMs Stronger Problem-Solvers 内容（本論文についてはこのアイデアのみ紹介） • 低品質なSLMで、多数の試行を繰り返しても、最終回答が正しいか判断が難しい • 推論ステップをモンテカルロ木探索する手法をベースに相互一致プロセスで拡張 • 推論ステップの部分軌跡を2つ目のLLMに推論させ、元の軌跡と一致したら正しいと判断 Authors Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang published 2025/11

20 Confidential © 2025 LayerX Inc. 推論ステップが取りうるアクション空間出典: Mutual Reasoning
Makes Smaller LLMs Stronger Problem-Solvers (Zhenting Qi et al., 2024/08), Figure 3

21 Confidential © 2025 LayerX Inc. 推論ステップが取りうるアクション空間出典: Mutual Reasoning
Makes Smaller LLMs Stronger Problem-Solvers (Zhenting Qi et al., 2024/08), Figure 3を和訳

22 Confidential © 2025 LayerX Inc. 複数の経路で回答が一致することの嬉しさ • （論文には書かれていないが）LLMの回答が正しいことを判定することは難しい ◦
自信度も一緒に回答させる ◦ LLM as a judgeで判定 ◦ Best-of-N（複数回実行） ▪ 最初の論文のFirst-to-ahead-by-k Votingもこの一種 • 1つの問題を異なるアプローチで解いたときに答えが一致していたら、本当に正解の可能性が高そう ◦ 検算や誤り訂正符号のアナロジー

まとめ

24 Confidential © 2025 LayerX Inc. まとめ Opus 4.6で50%タスク完了時間が12時間に達しているが、ステップ数が膨大になると完遂が困難 Solving
a Million-Step LLM Task with Zero Errors On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers ・ First-to-ahead-by-k Voting のkは100万ステップでも1桁程度で十分・LLM呼び出しコストもにスケール・信頼性の低い兆候を使ったリトライ戦略・正しいか正しくないかを正確に判定したフィードバックが重要・エラーは全量であったり、詳細を出すかもさほど二値フィードバックと変わらない・フィードバックを繰り返す際にも正確に判定できることが大事・複数のSLMが別の軌跡で導いた回答が一致するのであれば、正解の可能性が高いという直感を反映した手法

long-running-tasks

long-running-tasks

cipepser

More Decks by cipepser

Other Decks in Technology

Featured

Transcript

© LayerX Inc.　 1 Long-running taskにおけるスケーリング則と検証器の役割 2026/5/28 AIエージェント設計勉強会株式会社LayerX

2 Confidential © 2025 LayerX Inc. 自己紹介 • 恩田壮恭（おんだまさのり） ◦

Introduction

4 Confidential © 2025 LayerX Inc. METR長時間タスクのベンチマーク出典: https://metr.org/, 50%

100万ステップのタスクをノーミスで解く

7 Confidential © 2025 LayerX Inc. Solving a Million-Step LLM

8 Confidential © 2025 LayerX Inc. タスク分割によるスケーリング則の定式化（1／3） • すべてのタスクを完了するために合計sステップが必要 •

9 Confidential © 2025 LayerX Inc. タスク分割によるスケーリング則の定式化（2／3）すべてのタスクが成功する確率p_fullを計算できる ※mはサブステップを分解した数だが、m=1とすると理解しやすい出典:

10 Confidential © 2025 LayerX Inc. タスク分割によるスケーリング則の定式化（3／3） 100万ステップを高い確率で成功するために、kがそこまで大きくならない出典: Solving

11 Confidential © 2025 LayerX Inc. LLM呼び出しコストのスケーリング則特にm=1であればにスケールする出典:

12 Confidential © 2025 LayerX Inc. 信頼性の低い兆候: レッドフラグ • 論文では以下の2つの兆候があれば、リトライするなどで単位ステップの成功確率pを上

検証器に求められる「正誤判定」の質

14 Confidential © 2025 LayerX Inc. On the Self-Verification Limitations

15 Confidential © 2025 LayerX Inc. ３つの題材 Game of 24

16 Confidential © 2025 LayerX Inc. フィードバックの効果出典: On the

17 Confidential © 2025 LayerX Inc. 反復回数とパフォーマンス出典: On the

相互一致による正しい回答の判定

19 Confidential © 2025 LayerX Inc. Mutual Reasoning Makes Smaller

20 Confidential © 2025 LayerX Inc. 推論ステップが取りうるアクション空間出典: Mutual Reasoning

21 Confidential © 2025 LayerX Inc. 推論ステップが取りうるアクション空間出典: Mutual Reasoning

22 Confidential © 2025 LayerX Inc. 複数の経路で回答が一致することの嬉しさ • （論文には書かれていないが）LLMの回答が正しいことを判定することは難しい ◦

まとめ

24 Confidential © 2025 LayerX Inc. まとめ Opus 4.6で50%タスク完了時間が12時間に達しているが、ステップ数が膨大になると完遂が困難 Solving