Upgrade to Pro — share decks privately, control downloads, hide ads and more …

long-running-tasks

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

 long-running-tasks

Avatar for cipepser

cipepser

May 28, 2026

More Decks by cipepser

Other Decks in Technology

Transcript

  1. 2 Confidential © 2025 LayerX Inc. 自己紹介 • 恩田壮恭(おんだまさのり) ◦

    cipepser/cipe(さいぺ) • LayerX Ai Workforce事業部 • これまで ◦ 新卒で大手証券系SIerでネットワークエンジニア ◦ 暗号資産分野で新規事業立ち上げ ◦ TEEやPrivacyTechなど、技術を軸にした新規プロ ダクトの開発(LayerX歴6年) • 現在 ◦ Lead FDE(Forward Deployed Engineer)
  2. 4 Confidential © 2025 LayerX Inc. METR長時間タスクのベンチマーク 出典: https://metr.org/, 50%

    Success, 2026/5/21アクセス Opus 4.6は12時間のタスクが 50%の確率で完了できる
  3. 5 Confidential © 2025 LayerX Inc. 本日のモチベーション 長時間タスクの課題 ステップ数が膨大になると、最後までタスクを完遂することが困難になる 完遂するには、各ステップの成功確率を上げる、または失敗時のリトライや原因究明、復帰できる仕組みが必要

    おもしろかった論文を紹介 Solving a Million-Step LLM Task with Zero Errors Elliot Meyerson et al. 2025/11 On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks Kaya Stechly et al. 2024/02 Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers Zhenting Qi et al. 2024/08
  4. 7 Confidential © 2025 LayerX Inc. Solving a Million-Step LLM

    Task with Zero Errors 内容 • 最小粒度のサブタスクへの分解した際のスケーリング則 • サブタスクレベルの投票に基づくエラー訂正 ◦ First-to-ahead-by-k Voting • 相関エラーを減らすためのレッドフラッグ Authors Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, Hormoz Shahrzad, Olivier Francon, Conor F. Hayes, Xin Qiu, Babak Hodjat, Risto Miikkulainen published 2025/11
  5. 8 Confidential © 2025 LayerX Inc. タスク分割によるスケーリング則の定式化(1/3) • すべてのタスクを完了するために合計sステップが必要 •

    固有のステップあたりの成功率をpとする ◦ 最悪のケース(確率pの正しい候補が確率1-pの単一の代替案と競合する)を仮定 • 各サブタスクのアクションを決定するためにk票の差が必要 ◦ First-to-ahead-by-k Voting 1 ステップ1 成功率 p 2 ステップ2 成功率 p ステップi k票の差で決定 s ステップs 全完了
  6. 12 Confidential © 2025 LayerX Inc. 信頼性の低い兆候: レッドフラグ • 論文では以下の2つの兆候があれば、リトライするなどで単位ステップの成功確率pを上

    げる施策にも言及 ◦ 過度に応答時間が長いケース ◦ 誤ったフォーマットを伴う応答 • 「誤りである確率が著しく高い兆候」を見つけたらリトライしてしまうのも Long-running taskの実装では重要なヒューリスティックになる可能性
  7. 14 Confidential © 2025 LayerX Inc. On the Self-Verification Limitations

    of Large Language Models on Reasoning and Planning Tasks 内容 • LLMによる自己批判と、信頼できる検証器によるフィードバックでLLMが再考すること の効果を検証 注意 • 対象モデルがGPT-4 Authors Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati published 2024/02
  8. 15 Confidential © 2025 LayerX Inc. 3つの題材 Game of 24

    概要 4つの数字と四則演算で24を作るパ ズル 自己批判 (LLM) 提示された式が正しいかをLLMに判断 させる 信頼できる検証器 Pythonのプログラムで検証 グラフ彩色 概要 隣接する頂点が同じ色にならないよう n色を割り当てる問題 自己批判 (LLM) 同じ色になっていないかを判定させる 信頼できる検証器 エッジで結ばれた頂点の同色判定によ る不正解判断 STRIPSプランニング 概要 離散・決定論的空間での計画自動立案 問題 自己批判 (LLM) 実行可能な計画かを判断させる 信頼できる検証器 PDDLによる記述と、初期からゴール への到達性検証
  9. 16 Confidential © 2025 LayerX Inc. フィードバックの効果 出典: On the

    Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks (Kaya Stechly et al., 2024/02), Table 1 LLMによる自己批判が悪影響 を与えている(G24とBWのみ 批判の精度が高く、性能低下を 低く抑えられた) 標準 プロンプト LLMによる 自己批判 B.F.→Binary-Feedback F.E.F.→ First Error Feedback A.E.F. →All Error Feedback 二値のみのFBとさほど変 わらない LLMかどうかというよりも、 正しいか正しくないかを正確 に判定できることが重要
  10. 17 Confidential © 2025 LayerX Inc. 反復回数とパフォーマンス 出典: On the

    Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks (Kaya Stechly et al., 2024/02), Figure 2 ▲: 信頼できる検証器 •: LLMによる自己批判 信頼できる検証器は試行を繰り返すことで性能が上がっていくのに対し、LLMによる自己批 判は繰り返しによってパフォーマンスが低下
  11. 19 Confidential © 2025 LayerX Inc. Mutual Reasoning Makes Smaller

    LLMs Stronger Problem-Solvers 内容(本論文についてはこのアイデアのみ紹介) • 低品質なSLMで、多数の試行を繰り返しても、最終回答が正しいか判断が難しい • 推論ステップをモンテカルロ木探索する手法をベースに相互一致プロセスで拡張 • 推論ステップの部分軌跡を2つ目のLLMに推論させ、元の軌跡と一致したら正しいと判 断 Authors Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang published 2025/11
  12. 20 Confidential © 2025 LayerX Inc. 推論ステップが取りうるアクション空間 出典: Mutual Reasoning

    Makes Smaller LLMs Stronger Problem-Solvers (Zhenting Qi et al., 2024/08), Figure 3
  13. 21 Confidential © 2025 LayerX Inc. 推論ステップが取りうるアクション空間 出典: Mutual Reasoning

    Makes Smaller LLMs Stronger Problem-Solvers (Zhenting Qi et al., 2024/08), Figure 3を和訳
  14. 22 Confidential © 2025 LayerX Inc. 複数の経路で回答が一致することの嬉しさ • (論文には書かれていないが)LLMの回答が正しいことを判定することは難しい ◦

    自信度も一緒に回答させる ◦ LLM as a judgeで判定 ◦ Best-of-N(複数回実行) ▪ 最初の論文のFirst-to-ahead-by-k Votingもこの一種 • 1つの問題を異なるアプローチで解いたときに答えが一致していたら、本当に正解の可 能性が高そう ◦ 検算や誤り訂正符号のアナロジー
  15. 24 Confidential © 2025 LayerX Inc. まとめ Opus 4.6で50%タスク完了時間が12時間に達しているが、ステップ数が膨大になると完遂が困難 Solving

    a Million-Step LLM Task with Zero Errors On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers ・ First-to-ahead-by-k Voting のkは100万ステップでも1桁程度で 十分 ・LLM呼び出しコストも に スケール ・ 信頼性の低い兆候を使ったリトラ イ戦略 ・ 正しいか正しくないかを正確に判 定したフィードバックが重要 ・ エラーは全量であったり、詳細を出 すかもさほど二値フィードバックと変 わらない ・ フィードバックを繰り返す際にも正 確に判定できることが大事 ・ 複数のSLMが別の軌跡で導いた 回答が一致するのであれば、正解の 可能性が高いという直感を反映した 手法