Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

【論文紹介】Agentic Context Engineering : Evolving Co...

Avatar for MomokoShirakawa MomokoShirakawa
December 27, 2025
100

【論文紹介】Agentic Context Engineering : Evolving Contexts for Self-Improving Language Models

修士1年論文紹介にて使用した資料です.

Avatar for MomokoShirakawa

MomokoShirakawa

December 27, 2025
Tweet

Transcript

  1. 1 論文紹介 Agentic Context Engineering: Evolving Contexts for Self-Improving Language

    Models Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun 発展コミュニケーション(2025/12/22) 論文紹介者:数理工学専攻1年佐々木研究室 白川桃子
  2. LLMはコンテキストエンジニアリングもする時代に? ファインチューニングだけが手段 課題:高コスト/リアルタイム更新不可 ʙ ॳظ#&35(15 プロンプトエンジニアリングの登場 課題:処理可能なトークン数が(未だ)少ない ʙ (15(15 モデルが一度に処理できる情報量が急増

    課題:大量の情報をただ単に渡すだけでは精度が上がらない ʙ (155VSCP(FNJOJ1SP コンテキストエンジニアリングの登場 コンテキストエンジニアリングとは…思考プロセスの構造化を設計する. ʙ (15(FNJOJ 2
  3. 今回紹介する論文 📗࿦จ Agentic Context Engineering: Evolving Contexts for Self-Improving Language

    Models Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong,Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun ※ICLR2026に投稿中 📗֓ཁ この論文ではコンテキストを時間の経過とともに戦略を蓄積/整理するプレイブックとそれぞれ役割を持つ3つのLLM を用いたACEという手法を提案.これは,コンテキスト適応の抱える簡潔性バイアス/文脈崩壊に対応している. 評価の結果,ACEはエージェントベンチマークとドメイン特化型タスクの両方でベースラインを一貫して上回った. 用語集をappendixに記載しました! 3
  4. 4 コンテキスト適応の抱える2つの問題点 ⚠؆ܿੑόΠΞε #SFWJUZ#JBT  --.ͷֶश͕ਐΉʹͭΕͯग़ྗ͕؆ུԽ͞ΕΔ܏޲͕͋Δɽ ɾݪҼ 3-)'ͷ݁Ռɼਓؒͷ୹͘෼͔Γ΍͍͢౴͑Λ޷Ή܏޲͕ա ৒ʹ൓ө͞ΕɼίϯςΩετ͕ৠཹͯ͠͠·͏ͨΊɽ ⚠จ຺่յ

    $POUFYU$PMMBQTF  --.ͰϓϩϯϓτΛ൓෮తʹॻ͖௚͢ͱɼඇৗʹ୹͘಺༰͕ رബͳ΋ͷʹऩଋ͢Δɽ ɾݪҼ ϓϩϯϓτΛෳ਺ճਪᏏ͢ΔաఔͰɼࢥߟաఔ΍υϝΠϯಛ ༗ͷ஌ࣝͳͲͷ৘ใΛܶతʹ๨٫͢ΔͨΊɽ ϓϩϯϓτΛෳ਺ճॻ͖׵͑ͨ͜ͱͰɼඇৗʹ୹͘৘ใྔͷগͳ͍ཁ໿Λੜ੒͠ɼ ੑೳ͕ٸܹʹ௿Լ͢Δɽ ਤதͷTUFQ෇ۙ <> ユーザー モデル フィードバック:短い生成◎ 短すぎる回答を生成
  5. ACEでプレイブックをアップデートする流れ 手順①タスクを実行してトラジェクトリーを生成 ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ

    ΩϡϨʔλʔ Ξοϓσʔτ 📝τϥδΣΫτϦʔͷ಺༰ ɾΫΤϦ ɾϞσϧ͕໰୊Λղܾ͢Δࡍͷਪ࿦ϓϩηε ɾϞσϧͷ࠷ऴతͳग़ྗ ɾλεΫͷਖ਼ղ δΣωϨʔλʔະࢀর 7
  6. 11 コンテキスト適応の抱える2つの問題点への対応方法 ⚠؆ܿੑόΠΞε #SFWJUZ#JBT  --.ͷֶश͕ਐΉʹͭΕͯग़ྗ͕؆ུԽ͞ΕΔ܏޲͕͋Δɽ ɾରԠํ๏ ϓϨΠϒοΫΛ࡞੒͠௕͘ৄࡉͳίϯςΩετΛอ࣋͢Δɽ ⚠จ຺่յ $POUFYU$PMMBQTF

     --.ͰϓϩϯϓτΛ൓෮తʹॻ͖௚͢ͱɼඇৗʹ୹͘಺༰͕ رബͳ΋ͷʹऩଋ͢Δɽ ɾରԠํ๏ ߋ৽Λมߋ෦෼ͷΈʹݶఆ͢Δ͜ͱͰɼ൓෮తʹॻ͖௚͢͜ ͱΛճආ͢Δ ΫΤϦ δΣωϨʔλʔ ϓϨΠϒοΫ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ ΩϡϨʔλʔ
  7. 実験①-設定 12 実験①②で共通の設定 ✅オンライン環境/オフライン環境 testデータに対して実行している際に,プレイブックを更新するか否か. ✅GTラベル タスクの正解をリフレクターが参照できるか否か. 🧠DeepSeek-v3.1 🖼ReAct:基盤となるフレームワーク 📈評価指標

    ・TGC(Task Goal Completion) タスクの正解と生成した正解が一致した割合 ・SGC(Scenario Goal Completion) 回答に至る論理プロセスに一貫性がある割合 実験① LLMエージェントベンチマークAppWorld[1] 📝評価に使うデータセット API理解/コード生成/環境設定などを含むタスク. 難易度の異なる2種類のタスク (Test-Normal,Test-Challenge)を用意. ☝ACEと比較する手法 ICL[4],GEPA[5],DC(CU)[6]
  8. 実験②-設定 15 実験② ドメイン特化ベンチマークFiNER[2]/Formula[3] 
 📝評価に使うデータセット 財務分析(FiNER):139種類のラベリング問題. 数式(Formula):文書からの数値抽出及び計算. ☝ACEと比較する手法 ICL[4],GEPA[5],DC(CU)[6],MIPROv2[7]

    📈評価指標 タスクの正解と生成した正解が一致した割合 実験①②で共通の設定 ✅オンライン環境/オフライン環境 testデータに対して実行している際に,プレイブックを更新するか否か. ✅GTラベル タスクの正解をリフレクターが参照できるか否か. 🧠DeepSeek-v3.1
  9. 参考文献 21 [1] Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin

    Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, and Niranjan Balasubramanian. Appworld: A controllable world of apps and people for benchmarking interactive coding agents. arXiv preprint arXiv:2407.18901, 2024. [2]Lefteris Loukas, Manos Fergadiotis, Ilias Chalkidis, Eirini Spyropoulou, Prodromos Malakasiotis, Ion Androutsopoulos, and Georgios Paliouras. "FiNER: Financial numeric entity recognition for XBRL tagging." arXiv preprint arXiv:2203.06482, 2022 [3]Dannong Wang, Jaisal Patel, Daochen Zha, Steve Y Yang, and Xiao-Yang Liu. "FinLoRA: Benchmarking LoRA methods for fine-tuning LLMs on financial datasets." arXiv preprint arXiv:2505.19819, 2025 [4]Rishabh Agarwal et al., "Many-shot in-context learning," Advances in Neural Information Processing Systems, 37:76930–76966, 2024 [5]Lakshya A Agrawal et al., "Gepa: Reflective prompt evolution can outperform reinforcement learning," arXiv preprint arXiv:2507.19457, 2025 [6]Mirac Suzgun et al., "Dynamic cheatsheet: Test-time learning with adaptive memory," arXiv preprint arXiv:2504.07952, 2025 [7]Krista Opsahl-Ong et al., "Optimizing instructions and demonstrations for multi-stage language model programs," arXiv preprint arXiv:2406.11695, 2024
  10. 用語集 LLM(大規模言語モデル) 膨大なテキストデータを学習することで,人間のように文脈理解/生成/応答ができるようなAIモデル. ファインチューニング 既存のモデルについて追加で学習を行い,モデル内の数億〜数兆のパラメータを更新する.ドメインに特化したLLMを構築可能. トークン 文章を分割しうる最小単位.(≒単語) プロンプトエンジニアリング プロンプト(=LLMへの指示文)が最適なものになるように設計する. コンテキスト

    モデルが生成する際に参考にする,ユーザーの質問/外部情報/過去の対話内容などの文脈全体. RLHF いくつかの生成結果に対して人手でランキング形式のフィードバックを提示し,その内容をモデルの学習に組み込む手法. クエリ ユーザーからAIに対する質問/問い合わせ/要求のテキスト文. LLMエージェント LLMを基盤とし外部ツール(検索エンジン/APIなど)を活用しながら目標達成のために自律的に計画をたてタスクを遂行するシステム. testデータ モデルの学習後に性能を評価するために使う,学習に一度も使っていない未知のデータ. ReAct 推論と行動を繰り返しながら必要な情報を検索し,それを基に新しい提案を生成する枠組み. ICL(In-Context Learning) プロンプト内でタスクを解くデモンストレーションを示し推論させる手法. GEPA トライアンドエラーで良いプロンプトを作成する手法. DC(CU) ノウハウをためながらプロンプトを全て書き直す手法. MIPROv2 指示とデモをベイズ最適化を用いてアップデートする手法. Multi-epoch testデータを複数回反復し,コンテキストを洗練するプロセス. バッチサイズ 学習時に一度に処理するデータ数 エポック数 trainデータ全体を何回繰り返して学習に用いたか 23