【論文紹介】Agentic Context Engineering : Evolving Contexts for Self-Improving Language Models

1 論文紹介 Agentic Context Engineering: Evolving Contexts for Self-Improving Language
Models Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun 発展コミュニケーション(2025/12/22) 論文紹介者：数理工学専攻1年佐々木研究室白川桃子

LLMはコンテキストエンジニアリングもする時代に？ファインチューニングだけが手段課題：高コスト/リアルタイム更新不可 ʙ ॳظ#&35(15 プロンプトエンジニアリングの登場課題：処理可能なトークン数が(未だ)少ない ʙ (15(15 モデルが一度に処理できる情報量が急増
課題：大量の情報をただ単に渡すだけでは精度が上がらない ʙ (155VSCP(FNJOJ1SP コンテキストエンジニアリングの登場コンテキストエンジニアリングとは…思考プロセスの構造化を設計する． ʙ (15(FNJOJ 2

今回紹介する論文 📗࿦จ Agentic Context Engineering: Evolving Contexts for Self-Improving Language
Models Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong,Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun ※ICLR2026に投稿中 📗֓ཁ この論文ではコンテキストを時間の経過とともに戦略を蓄積/整理するプレイブックとそれぞれ役割を持つ3つのLLM を用いたACEという手法を提案．これは，コンテキスト適応の抱える簡潔性バイアス/文脈崩壊に対応している．評価の結果，ACEはエージェントベンチマークとドメイン特化型タスクの両方でベースラインを一貫して上回った．用語集をappendixに記載しました！ 3

4 コンテキスト適応の抱える2つの問題点 ⚠؆ܿੑόΠΞε #SFWJUZ#JBT --.ͷֶश͕ਐΉʹͭΕͯग़ྗ͕؆ུԽ͞ΕΔ܏޲͕͋Δɽ ɾݪҼ 3-)'ͷ݁Ռɼਓؒͷ୹͘෼͔Γ΍͍͢౴͑Λ޷Ή܏޲͕ա ৒ʹ൓ө͞ΕɼίϯςΩετ͕ৠཹͯ͠͠·͏ͨΊɽ ⚠จ຺่յ
$POUFYU$PMMBQTF --.ͰϓϩϯϓτΛ൓෮తʹॻ͖௚͢ͱɼඇৗʹ୹͘಺༰͕ رബͳ΋ͷʹऩଋ͢Δɽ ɾݪҼ ϓϩϯϓτΛෳ਺ճਪᏏ͢ΔաఔͰɼࢥߟաఔ΍υϝΠϯಛ ༗ͷ஌ࣝͳͲͷ৘ใΛܶతʹ๨٫͢ΔͨΊɽ ϓϩϯϓτΛෳ਺ճॻ͖׵͑ͨ͜ͱͰɼඇৗʹ୹͘৘ใྔͷগͳ͍ཁ໿Λੜ੒͠ɼ ੑೳ͕ٸܹʹ௿Լ͢Δɽ ਤதͷTUFQ෇ۙ <> ユーザーモデルフィードバック：短い生成◎ 短すぎる回答を生成

ACE(=Agentic Context Engineering)の仕組み 3つのLLMを組み合わせプレイブックをアップデートすることで自己改善する ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ
δΣωϨʔλʔ ϦϑϨΫλʔ ΩϡϨʔλʔ Ξοϓσʔτ 5

プレイブックとは ϓϨΠϒοΫ アップデートし続ける戦略書戦略を蓄積/洗練/構造化していく動的な知識ベース ͷͪʹ঺հ͢Δ࣮ݧᶃʹ࣮ͯࡍʹ࡞੒͞ΕͨϓϨΠϒοΫ 6

ACEでプレイブックをアップデートする流れ手順①タスクを実行してトラジェクトリーを生成 ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ
ΩϡϨʔλʔ Ξοϓσʔτ 📝τϥδΣΫτϦʔͷ಺༰ ɾΫΤϦ ɾϞσϧ͕໰୊Λղܾ͢Δࡍͷਪ࿦ϓϩηε ɾϞσϧͷ࠷ऴతͳग़ྗ ɾλεΫͷਖ਼ղ δΣωϨʔλʔະࢀর 7

ACEでプレイブックをアップデートする流れ手順②トラジェクトリーを批判的に分析しインサイトを抽出 ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ
ΩϡϨʔλʔ Ξοϓσʔτ 📝ΠϯαΠτͷ಺༰ ɾਪ࿦ϛεΛͨ͠෦෼ ɾਪ࿦ϛεͷࠜຊݪҼ ɾਖ਼͍͠ΞϓϩʔνͷఏҊ ɾॏཁͳઓུ 8

ACEでプレイブックをアップデートする流れ手順③インサイトを差分データに変換しプレイブックに統合 ⭕変更する内容だけ箇条書きで追加する ❌プレイブックを再生成させる 👍 再生成による知識の欠落がない/低コスト ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ
ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ ΩϡϨʔλʔ Ξοϓσʔτ 9

ACE(=Agentic Context Engineering)の仕組み※再掲 3つのLLMを組み合わせプレイブックをアップデートすることで自己改善する ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ
δΣωϨʔλʔ ϦϑϨΫλʔ ΩϡϨʔλʔ Ξοϓσʔτ 10

11 コンテキスト適応の抱える2つの問題点への対応方法 ⚠؆ܿੑόΠΞε #SFWJUZ#JBT --.ͷֶश͕ਐΉʹͭΕͯग़ྗ͕؆ུԽ͞ΕΔ܏޲͕͋Δɽ ɾରԠํ๏ ϓϨΠϒοΫΛ࡞੒͠௕͘ৄࡉͳίϯςΩετΛอ࣋͢Δɽ ⚠จ຺่յ $POUFYU$PMMBQTF
--.ͰϓϩϯϓτΛ൓෮తʹॻ͖௚͢ͱɼඇৗʹ୹͘಺༰͕ رബͳ΋ͷʹऩଋ͢Δɽ ɾରԠํ๏ ߋ৽Λมߋ෦෼ͷΈʹݶఆ͢Δ͜ͱͰɼ൓෮తʹॻ͖௚͢͜ ͱΛճආ͢Δ ΫΤϦ δΣωϨʔλʔ ϓϨΠϒοΫ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ ΩϡϨʔλʔ

実験①-設定 12 実験①②で共通の設定 ✅オンライン環境/オフライン環境 testデータに対して実行している際に，プレイブックを更新するか否か． ✅GTラベルタスクの正解をリフレクターが参照できるか否か． 🧠DeepSeek-v3.1 🖼ReAct：基盤となるフレームワーク 📈評価指標
・TGC(Task Goal Completion) タスクの正解と生成した正解が一致した割合・SGC(Scenario Goal Completion) 回答に至る論理プロセスに一貫性がある割合実験① LLMエージェントベンチマークAppWorld[1] 📝評価に使うデータセット API理解/コード生成/環境設定などを含むタスク．難易度の異なる2種類のタスク (Test-Normal,Test-Challenge)を用意． ☝ACEと比較する手法 ICL[4]，GEPA[5]，DC(CU)[6]

実験①-評価 13 Table 1:Results on the AppWorld Agent Benchmark. ベースのモデルから平均14.8%〜
17.1%向上

実験①-評価 14 Table 1:Results on the AppWorld Agent Benchmark. ACEはGTラベルの有無によらず，強力で汎用性の高いフレームワーク

実験②-設定 15 実験② ドメイン特化ベンチマークFiNER[2]/Formula[3]   📝評価に使うデータセット財務分析(FiNER)：139種類のラベリング問題．数式(Formula)：文書からの数値抽出及び計算． ☝ACEと比較する手法 ICL[4]，GEPA[5]，DC(CU)[6]，MIPROv2[7]
📈評価指標タスクの正解と生成した正解が一致した割合実験①②で共通の設定 ✅オンライン環境/オフライン環境 testデータに対して実行している際に，プレイブックを更新するか否か． ✅GTラベルタスクの正解をリフレクターが参照できるか否か． 🧠DeepSeek-v3.1

実験②-評価 16 Table 2:Results on Financial Analysis Benchmark. ベースのモデルから平均3.8%〜 12.8%向上

実験②-評価 17 Table 2:Results on Financial Analysis Benchmark. 特にオフライン環境で明確な差をつけて上回っている

実験②-評価 18 Table 2:Results on Financial Analysis Benchmark. GTラベルがあることで正確なフィードバックが生成できる

紹介した論文のまとめ/疑問点 19 📗論文まとめ目的　　　コンテキスト適応するときの簡潔性バイアス/文脈崩壊に対応したい提案　　　ACEというプレイブックとそれぞれ役割を持つ3つのLLMを組み合わせた手法結果　　　LLMエージェントタスク，ドメイン特化タスクの両方でベースラインを一貫して上回った． 🤔論文紹介者の疑問・DeepSeek以外のLLMでもACEを用いることで精度が向上するのか →ICLR2026の査読のやり取りに記載・論文中ではバッチサイズ1，エポック数5に設定．
　これが最適な値であるか/他のパラメータについて未記載． →ACE×ハイパラメーターチューニングで精度が更に向上するのでは？

紹介した論文の研究への応用方法 20 研究の目標：ストレスレスに医療コミュニティを活性化させたいその中でカウンセラーに対してカウンセリングスキルのアドバイスをLLMで生成したい ↓ AI×医療に詳しい先生からの質問「ユーザーに分かりやすくアドバイス生成の方針を説明できないと納得感が薄いのでは」 ↓ ×ユーザーはLLMの内部構造が知りたい ⭕ユーザーはアドバイスの根拠を知りたい
↓ ACE内のプレイブックの提示がカウンセラーの納得感につながるのでは

参考文献 21 [1] Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin
Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, and Niranjan Balasubramanian. Appworld: A controllable world of apps and people for benchmarking interactive coding agents. arXiv preprint arXiv:2407.18901, 2024. [2]Lefteris Loukas, Manos Fergadiotis, Ilias Chalkidis, Eirini Spyropoulou, Prodromos Malakasiotis, Ion Androutsopoulos, and Georgios Paliouras. "FiNER: Financial numeric entity recognition for XBRL tagging." arXiv preprint arXiv:2203.06482, 2022 [3]Dannong Wang, Jaisal Patel, Daochen Zha, Steve Y Yang, and Xiao-Yang Liu. "FinLoRA: Benchmarking LoRA methods for fine-tuning LLMs on financial datasets." arXiv preprint arXiv:2505.19819, 2025 [4]Rishabh Agarwal et al., "Many-shot in-context learning," Advances in Neural Information Processing Systems, 37:76930–76966, 2024 [5]Lakshya A Agrawal et al., "Gepa: Reflective prompt evolution can outperform reinforcement learning," arXiv preprint arXiv:2507.19457, 2025 [6]Mirac Suzgun et al., "Dynamic cheatsheet: Test-time learning with adaptive memory," arXiv preprint arXiv:2504.07952, 2025 [7]Krista Opsahl-Ong et al., "Optimizing instructions and demonstrations for multi-stage language model programs," arXiv preprint arXiv:2406.11695, 2024

BQQFOEJY 22

用語集 LLM(大規模言語モデル) 膨大なテキストデータを学習することで，人間のように文脈理解/生成/応答ができるようなAIモデル．ファインチューニング既存のモデルについて追加で学習を行い，モデル内の数億〜数兆のパラメータを更新する．ドメインに特化したLLMを構築可能．トークン文章を分割しうる最小単位．(≒単語) プロンプトエンジニアリングプロンプト(=LLMへの指示文)が最適なものになるように設計する．コンテキスト
モデルが生成する際に参考にする，ユーザーの質問/外部情報/過去の対話内容などの文脈全体． RLHF いくつかの生成結果に対して人手でランキング形式のフィードバックを提示し，その内容をモデルの学習に組み込む手法．クエリユーザーからAIに対する質問/問い合わせ/要求のテキスト文． LLMエージェント LLMを基盤とし外部ツール(検索エンジン/APIなど)を活用しながら目標達成のために自律的に計画をたてタスクを遂行するシステム． testデータモデルの学習後に性能を評価するために使う，学習に一度も使っていない未知のデータ． ReAct 推論と行動を繰り返しながら必要な情報を検索し，それを基に新しい提案を生成する枠組み． ICL(In-Context Learning) プロンプト内でタスクを解くデモンストレーションを示し推論させる手法． GEPA トライアンドエラーで良いプロンプトを作成する手法． DC(CU) ノウハウをためながらプロンプトを全て書き直す手法． MIPROv2 指示とデモをベイズ最適化を用いてアップデートする手法． Multi-epoch testデータを複数回反復し，コンテキストを洗練するプロセス．バッチサイズ学習時に一度に処理するデータ数エポック数 trainデータ全体を何回繰り返して学習に用いたか 23

Scenario Goal Completionの評価方法 24 参考：https://www.emergentmind.com/topics/appworld-benchmark-tasks ・評価したい内容 ◯一連の流れとして整合性が取れているか，その上で最終目標を達成できたか ✖最終目標を達成できたか・評価方法エージェントの行動によってデータベースがどのように変化したかを見る．
(必要な変更が行われたか/不必要な変更が行われていないか) →SQLinteのレコードレベルで差分抽出をし，事前にわかっている「やるべきこと」と完全に一致しているか否かで評価

【論文紹介】Agentic Context Engineering : Evolving Co...

【論文紹介】Agentic Context Engineering : Evolving Contexts for Self-Improving Language Models

MomokoShirakawa

More Decks by MomokoShirakawa

Featured

Transcript

1 論文紹介 Agentic Context Engineering: Evolving Contexts for Self-Improving Language

今回紹介する論文 📗࿦จ Agentic Context Engineering: Evolving Contexts for Self-Improving Language

4 コンテキスト適応の抱える2つの問題点 ⚠؆ܿੑόΠΞε #SFWJUZ#JBT --.ͷֶश͕ਐΉʹͭΕͯग़ྗ͕؆ུԽ͞ΕΔ܏޲͕͋Δɽ ɾݪҼ 3-)'ͷ݁Ռɼਓؒͷ୹͘෼͔Γ΍͍͢౴͑Λ޷Ή܏޲͕ա ৒ʹ൓ө͞ΕɼίϯςΩετ͕ৠཹͯ͠͠·͏ͨΊɽ ⚠จ຺่յ

ACE(=Agentic Context Engineering)の仕組み 3つのLLMを組み合わせプレイブックをアップデートすることで自己改善する ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ

プレイブックとは ϓϨΠϒοΫ アップデートし続ける戦略書戦略を蓄積/洗練/構造化していく動的な知識ベース ͷͪʹ঺հ͢Δ࣮ݧᶃʹ࣮ͯࡍʹ࡞੒͞ΕͨϓϨΠϒοΫ 6

ACEでプレイブックをアップデートする流れ手順①タスクを実行してトラジェクトリーを生成 ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ

ACEでプレイブックをアップデートする流れ手順②トラジェクトリーを批判的に分析しインサイトを抽出 ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ

ACE(=Agentic Context Engineering)の仕組み※再掲 3つのLLMを組み合わせプレイブックをアップデートすることで自己改善する ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ

11 コンテキスト適応の抱える2つの問題点への対応方法 ⚠؆ܿੑόΠΞε #SFWJUZ#JBT --.ͷֶश͕ਐΉʹͭΕͯग़ྗ͕؆ུԽ͞ΕΔ܏޲͕͋Δɽ ɾରԠํ๏ ϓϨΠϒοΫΛ࡞੒͠௕͘ৄࡉͳίϯςΩετΛอ࣋͢Δɽ ⚠จ຺่յ $POUFYU$PMMBQTF

実験①-評価 13 Table 1:Results on the AppWorld Agent Benchmark. ベースのモデルから平均14.8%〜

実験①-評価 14 Table 1:Results on the AppWorld Agent Benchmark. ACEはGTラベルの有無によらず，強力で汎用性の高いフレームワーク

実験②-評価 16 Table 2:Results on Financial Analysis Benchmark. ベースのモデルから平均3.8%〜 12.8%向上

実験②-評価 17 Table 2:Results on Financial Analysis Benchmark. 特にオフライン環境で明確な差をつけて上回っている

実験②-評価 18 Table 2:Results on Financial Analysis Benchmark. GTラベルがあることで正確なフィードバックが生成できる

参考文献 21 [1] Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin

BQQFOEJY 22