コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ / Two Month Agent Struggle

コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 2025/05/20 コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 1

自己紹介と本日のテーマ erukiti アイコンが変わりました（生首から、全身に進化。服を着ました）株式会社AlgomaticのAIエンジニア（似非フルスタック、インフラだけめちゃくちゃ苦手） 2023年からLLMプロダクト専業で、チャット型作ったり、RAG作ったり、AIエージェント作ったりしています完全に趣味でコーディングエージェントを2025年3月中旬から作ってますそのタイミングから仕事でも、人力コーディングをほぼ封印してたけど、最近限界を感じて方針転換した（Sonnetと喧嘩しすぎて、あかんってなった）本日のテーマ:
エディタ間借り型コーディングエージェントの仕組みと限界負けパターン集と、その回避対策コーディングエージェントのこれからコーディングエージェントに関する生々しい何かを持ち帰っていただければ幸いですコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 2

作っているコーディングエージェントの状態基本的にはRoo Codeにコードを書かせていて、人力コーディングをしてないそれっぽいパーツは一通り実装されているウェブGUI + 汎用型コアいろいろな問題があって、ちゃんとした形では動いてない問題を解決するにはcontextが大きくなりすぎているコーディングエージェントを作ってるけどうまくいかなかった話
～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 3

おことわり本日の発表は、あくまで現時点での個人の経験と考察に基づくものです。開発中のものが未完成であるため、具体的な「完成品」のデモはありません。「コーディングエージェント作ってみた」なんてテーマに集まる人に基本的な説明は不要なはず！！いろいろな前提知識をすっ飛ばしていきます！！！先日でたオライリーの「LLMのプロンプトエンジニアリング」当然読んでますよね！！！コーディングエージェントを作るなら、必読の教科書です。みなさん、5回は読み返してください。「赤ずきん原則」とか出てきますよ！！（LLMの学習データに頻出するものにそろえましょうという原則）「チェーホフの銃」とか出てきますよ！！（不要な情報をcontextに入れるとLLMが混乱する）「真実バイアス」とか出てきますよ！！（contextに与えた情報を正と強く思い込む）
今日の話は、LLMにおける現行世代〜二世代くらい先（年末くらい）までのレンジの話になると思います。来年以後の最適解は少し変わってるはず。コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 4

アジェンダ 1. コーディングエージェントの概要 2. エディタ間借り型コーディングエージェントの仕組みと限界 3. 負けパターン集〜僕のコーディングエージェント開発が停滞した理由〜 4. どうやって負けパターンを回避するか
5. まとめコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 5

I. コーディングエージェントコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 6

AIエージェント流行ってますね！ AIエージェントとは？去年あたりから盛り上がり始め、一般にも広く認知 LLMが複数回自律的に動き、必要な情報をそろえ、ユーザーから与えられたタスクのゴールに向かって動くものなぜ今AIエージェント？ AIエージェントという考え自体は昔からあったが、技術的に実用的になったのが2024年以後特に tool use(いわゆるfunction
calling)や構造化出力機能の拡充 LLM自体の性能アップ OpenAIに至ってはもはや、AIエージェントで解決できることにしか興味なさそう学習データ枯渇問題の解決そもそもAGIをLLM単体で実現できるわけがないし、LLM単体でやるべきものでもないコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 7

AIエージェントの分類バーティカルAIエージェント専門分野に特化ドメインエキスパートを模したものが多いドメインエキスパートの日々の業務・思考回路の再現が鍵泥臭くやっていくしかない汎用AIエージェント AGI (汎用人工知能) を目指すもの。つまり任意のタスクの答えにたどり着く
OpenAI oシリーズはreasoningを使って様々なタスクを解けるようにしている DeepResearch: oシリーズをベースに、ツール利用に関する強化学習で高性能なウェブ検索とまとめを実現 o3+検索: ミニDeepResearchみたいなやつコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 8

理想と現実理想論でいえばAGI以上に到達できればバーティカルなAIエージェントは不要なはず？？？ AGIへの到達は、楽観的な予測で2027年頃といわれている仮にAGIができても決して安い値段でサービスされるわけがない現在でもChatGPT ProやClaude Maxのような月額$200が当たり前、$2000のプランが検討されてるという話もあるし、さらに上の金額も当然あり得る常識で考えて「あらゆる任意のタスクの答えにたどり着けて、全部のホワイトカラーの人間を不要にしかねない」技術を、安売りするわけが無い。何のためにここまで巨額の開発費を投じて、ダンピングまがいのAPI安値戦争をやり続けてるのか？
そもそも技術的には可能だとしても、エージェントとして動作する限り、タスク完了までに必要な演算リソースが膨大なことには変わりないいきなり「42」って答え出されても困るよね。地球潰してハイウェイ作っちゃう？課程が重要現実的な値段で提供するには、汎用性を多少なりともomitしたバーティカルなAIエージェントが重要あらゆる答えにたどり着ける汎用知性ですら、特定の業務で精度高く安定して動かすためのノウハウやプロンプトは必要なはず仮に「人類がやること全部ローコストで置き換えられる未来」が来てしまったら、もはや我々がやれることはないので、酒でも飲んでマリオカートワールドやろうぜ。フロムの新作でもいいよコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 9

コーディングエージェント汎用AIエージェントとバーティカルAIエージェントの中間プログラミングという特定ドメインに特化。バーティカルな側面システムプロンプトやユーザープロンプトに反映それ以外の形でも、ソフトウェア開発者というドメイン知識がインジェクションされてるしかし、扱うタスクは多岐にわたり、ある程度の汎用性が必要実際にブログや小説やを書くのにも使われたりしている最近はやりのCursor in
Obsidianとかもコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 10

コーディングエージェントの作り方適切なcontextを作るユーザーの意図を読み取るリポジトリの情報（ファイル一覧、ファイルの中身、grep結果など）を観測 terminalの実行して結果を観測 MCPとかあれこれ context組み立て -> LLM ->
context組み立て -> LLM のループ（必要なら）ユーザーインターフェース（必要なら）checkpoint機能（必要なら）コンテナを作成・制御コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 11

コーディングエージェントのパターン 1. エディタ間借り型: GitHub Copilot Agent, Cursor agent, Cline, Roo
Code, Windsurf 2. CLIツール: Claude Code, OpenAI Codex 3. コンテナ型: Devin, Cursor background agent, ChatGPT Codex, GitHub Copilot Coding Agent(NEW), Google Jules(NEW) ※ ChatGPT Codexは内部的にはOpenAI Codexを動かしてると思いますコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 12

II. エディタ間借り型コーディングエージェントの仕組みと限界コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 13

Cline/Rooの動作フロー 1. システムプロンプトを準備する（固定） 2. 一番最初のユーザープロンプトを組み立てる 3. LLMを呼び出す 4. 3の結果から、文字列処理でXMLを抜きだす（後処理） 5.
抜き出したXMLがツールのフォーマットに沿ってたら、それを使ってツールを実行、結果をuserプロンプトとしてcontextを組み立てて GOTO 3 6. 5で失敗したらツール利用を促すためにペナルティ文言を組み立ててuserプロンプトとしてcontextを組み立てて GOTO 3 ※ 毎ターンcontextが積み上がるチャットUI方式（精度としては良くない）コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 14

例: AIの発言 <thinking> `bun run test` の結果、テストが失敗しました。主なエラーは `typecheck` と同様に、`Cannot
find module './custom-actions.js'` です。これは、テスト実行時にもインポートパスの解決がうまくいっていないことを示しています。 </thinking> まず、インポートパスを `paths` エイリアスを使って修正します。 <write_to_file> <path>hoge/fuga/gquuuuuux.ts</path> <content> import { setup } from 'xstate'; ... </content> <line_count>228</line_count> </write_to_file> コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 15

例: userの皮を被ったエージェントによるツールの結果 [read_file for 'docs/coding-rule.md'] Result: <file><path>docs/coding-rule.md</path> <content lines="1-160"> 1
| # コーディングルール 2 | 3 | **IMPORTANTには最優先でしたがうこと。** 4 | [IMPORTANT]: **コーディング手順にある【それを実際に発言する】は、必ず【】で囲って発言すること** 5 | [IMPORTANT]: **自分が守るべきルールについて【それを実際に発言すること】** </content> </file> コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 16

Cline/Rooのコンテキストが複雑すぎる問題 AIから見たときのユーザーさんは「ツールの結果を延々貼り付けてくれる人」に見えている実際のユーザーの発言は全部XMLで囲われているからか、ユーザー発言を「ユーザーさんは丸々と言ってるようです」みたいな他人事丸出しの会話をしてくることがある（イラット++） Cline/Rooの利用者は対話型AIを操作してるような気持ちだけど、実際のcontextとは食い違ってることがある（contextの積み重なったSonnetがユーザーの最新の指示に従ってくれない問題）ツール利用にXML処理が必須しかも、XML混じりのプレーンテキストという、普通は無い形式（赤ずきん原則違反）すなおにtool_use(いわゆるfunction calling)を使えばいいのでは？（赤ずきん原則違反）
ファイル読み込みに行番号がついてる。これもLLMに負担がかかる（赤ずきん原則違反）コスパのいいモデルでまともに動かないのこれのせいでは？ファイル更新は diff を作るモードがある。これもsonnet以外では苦手っぽいというかdiffを作るってことは、元ファイルを一言一句間違わずに認識してないと駄目だからか、最近のRooではdiffはオプショナルになってる OpenAI canvasやGemini Canvasと比較すると、大体Claude Artifactsの方が成功率が高い（多分diff操作はClaudeの方が得意） o3だとノイズが多すぎてコーディングタスクは途中で壊れて継続不能になることもある LLMの知性に対する限界チャレンジやってない？コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 17

エディタ間借り型エージェントのUIが劣化型チャットUI問題 LLMは非決定論的に振る舞うのとcontext汚染問題があるので、履歴改ざんが極めて重要なのにコーディングエージェントのGUIではやりにくい。 ChatGPTだとできることができない改ざんのあるチャット履歴を元に戻してみたり共有機能を使ってそこからやり直す Cline/Rooの作りの問題履歴改ざんとcheckpoint機能が自動で同期されない自分から発言をしない限り、そこに戻ってやり直せない（無駄に発言して改ざんポイントを作るという謎テクニック）
エディタ上にあるのに、エディタとは異なる独自UIであり極めて使いづらいフォーカス制御に問題挙動を抱えてたり、小さくてサイズ変更できない使いづらすぎる入力欄とか enterで暴発！！！！！！！！！！！！！コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 18

エディタ間借り型は、エディタを占有されてしまう cursor/Cline/Rooなどは既存のエディタを操作する途中で人間がエディタを操作すると、操作がかち合うことがある -> 人間がエディタをいじりたいなら、別エディタを起動する必要がある（VSCode + Cursor + VSCode Insider...）
そのくせ、エディタの持つリファクタリング機能や、言語サーバー機能を活用できるわけでもないそもそもエディタの持つ機能を活用する優良な学習データがない（赤ずきん問題！！！！） GitHub Copilot(Chat/Agent)ですら、リファクタリング機能や言語サーバーを活用してないそれほんとにエディタに間借りする必要あるの？コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 19

III. コーディングエージェントでの負けパターン集〜僕の開発してたコーディングエージェントが未完な理由〜コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 20

僕の開発してたコーディングエージェントが未完な理由負けパターンを一通り踏み抜いた初期の技術的負債 Cline(Roo Code)を暴走列車にしたら4日間で数ヶ月分のコードが生成できた後期の技術的負債 GUIとコアをつなぎこむのはかなり大変だった複雑なものを作ってしまってたチャットインターフェース型のウェブアプリを作ろうとしていた checkpoint機能とかも実装してたのだが...
今思えばコンテナ型に未来があったここ二ヶ月趣味と業務で本気でRoo Codeと向き合い続けたけど、エディタ間借り型には一定の限界があったコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 21

負けパターンの分類 0. タスク設定の問題（これはわざわざ説明しない） 1. 情報の取り込みに失敗 contextの外にあるもの 2. 知識不足（ハルシネーションとか、そもそも学習してない）広い意味でいえばこれもcontextの外にあるもの 3.
contextが肥大化しすぎる実質、これが問題の大半を占める 4. 不要な情報を取り込みすぎる 5. LLM自体の性能問題 3.8/4.0 Sonnet早く出てくれ頼む！！！ ※ 負けパターンに入ると、失敗率が極端に上がる。大体何をやってもだめになるコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 22

情報の取り込みに失敗する Cline/Rooのterminal統合に問題がある terminalの実行結果を取り込めずにcontextが壊れる（ハルシネーションの原因）実行結果の行数が多いと、VSCodeのterminal自体の行数truncateの影響を受けてる？（こっちは確証なし） -> ちなみに terminal 統合を切った場合、プロセスを止めるボタンがなくて、
ゾンビプロセス問題エディタのエラーや警告を、正しく拾えたり拾えなかったりするこっちはちゃんと調査してないけど、拾えてるときと、拾えてないときがある MCP導入によっていろいろ改善の余地があるコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 23

真実バイアス（LLMのプロンプトエンジニアリング本にも書いてるよ！）与えた情報を正だと強く思い込む与えたデータの矛盾があっても都合良く解釈しやがる！！！！！「何も出力されてないから、正常な証！（バグって取得できないのに）」「エラーがあるけど、正常に動いているので問題ありません！（じつは正常に動いてない）」組み込みブラウザ（+画像入力）は結構失敗しやすいスクロールバーが表示されてるのに、スクロールできることを理解できなくて「画面に表示されていません。バグです。対策コードを入れましょう！」
CSSが適用されていなくても、ソースコード的には一見正しいように見えるから、CSSが適用されてると思い込んでしまう SonnetよりGemini 2.5 Proは大分マシなので、リポジトリの検査みたいなことをするときは絶対にGeminiにやらせた方が精度が高いです Sonnet「特にこのリポジトリに問題はないです」Gemini「これとこれとこれとこれ（ｒｙ）はこういう問題があります！」 Sonnetの書いたクソコードが一切信用できん！！！ってLLM不信に陥った僕を慰めてくれたのはGeminiでした！！！！！！ ※ ただし、Gemini 2.5 Proにも真実バイアスの問題はあります。仕組み上そういうもんです。マシなだけです。コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 24

知識不足 LLMのナレッジカットオフの時期問題多くのLLMは2024年以前の知識がおぼつかない古い知識でも正しいとは限らない Gemini 2.5 ProでRFC3000番台（要するにめっちゃ古いRFC）に対する厳密で精緻な理解はないっぽい（ハルシネーション） 3.7-SonnetでXState v5
の情報が全然反映されてない（2023年に出てるはずなんだが？？？？？？？）というかナレッジカットオフが最近のはずのLLMでも未だに「GPT-4が現役」「Geminiは1.5しかない！」とか言い出す仕組み的には全然あり得るつまり手厚くドキュメントを与えてあげる必要がある -> もしRFCを基に実装が必要なら、絶対にRFCを提示する必要がある。それをサボってサイレントバグを仕込まれても一切文句は言えない。「仕組み上そういうもの」コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 25

contextが肥大化しすぎる1: Cline/Rooのシステムプロンプトツール定義巨大で複雑すぎる MCPの説明 use_mcp_tool というツールを使う MCPのサーバー・ツール定義・リソース定義などがある使うには適切なXMLを組み立てて use_mcp_tool
を呼び出す必要がある MCPを大量にインストールしまくってると、システムプロンプトがめちゃくちゃ肥大化するモード説明使ってないモードがあっても、システムプロンプトにはモード説明文章が入るほかにも「これいらんくね？」みたいなのが山盛りコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 26

contextが肥大化しすぎる2: 対象リポジトリの複雑性複雑なリポジトリでは把握するための情報が増える複雑なリポジトリではディレクトリ構造の読み込み回数とデータサイズが増える複雑なリポジトリでは読み込むファイルが増える複雑なリポジトリでは、度々忘れて再度読み込むことになる（ポンコツ）ポンコツのAIのために指示を追加して細かく指示を出してあげると、それによってcontextが肥大化する！！！ポンコツ挙動のせいで、寄り道が増える。context 肥大
-> ポンコツ -> context 肥大ループ！！！！！！ ※ テトリス作る程度なら簡単なのに、ちゃんとしたプロダクト開発に使おうとするとポンコツになるのはこれが理由 ※ 特に3.7-Sonnetさんカワイイですねーコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 27

不要な情報（ノイズ）を取り込んでcontext汚染（これも致命的）チェーホフの銃！（LLMのプロンプトエンジニアリング本を読んで！！）ポンコツ挙動によるポンコツな情報取り込み（LLMのせい）ポンコツ挙動のせいで、寄り道が増える。context 肥大 -> ポンコツ -> context 肥大ルー
プ！！！！！！ユニットテストの結果の成功ログ（既存のCLIツールの特性）テスト修正で必要なのは、テストが失敗してるところのログだけこれとかはMCPやCLIオプションでなんとかできるかもしれないが、工夫が必要ユニットテストに苦戦してるときは実行回数が増える -> ポンコツ context 肥大ループ！むしろポンコツループに入ってるときの失敗リトライの履歴を消したい失敗に該当するトライは大体不要な情報だから、そこをcontext改ざんで消せれば、動作改善しそう完全に不要な警告の類い（例: pnpmのバージョンアップ警告）人間から見たら別にどうでもいいんだけど、AIにとってはcontext汚染にしかならないコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 28

ユーザープロンプトの環境情報 <environment_details> # VSCode Visible Files # VSCode Open Tabs
# Recently Modified Files # Current Time 2025/5/9 午後10:51:21 (Asia/Tokyo, UTC+9:00) # Current Context Size (Tokens) 754,894 (72%) # Current Cost $7.06 # Current Mode <slug>code</slug> <name> Code</name> <model>gemini-2.5-pro-preview-03-25</model> </environment_details> ※ これほんまにいるん？userターンで毎回これ付与されるんやで！！！（設定で削りまくって軽くしてこれ）コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 29

LLMの性能問題 - 3.7 Sonnetは嘘をつきまくる！ゴールを自分の都合のいいようにねじ曲げる「完了しました！！！」 -> 実はダミー実装だった指示してるはずの、ユニットテストが壊れている「ユニットテストも正常です！」
指示してるはずの、型エラーが修正されていない「型チェックも正常です！」指示してるはずの、lintが通らない「lintも正常です！」指示してるはずの、動作確認をしてない「動作確認も問題ありませんでした！」「エラーが出てますが、今回のタスクとは関係無いため無視します（関係ある）」コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 30

LLMの性能問題 - 3.7 Sonnetはチートをする「俺、またなんかやっちゃいました？」コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 31

LLMの性能問題 - context size Sonnetはcontextが100kを超えたくらいから使い物にならなくなる（long context 性能が弱いのと、contextが複雑化している） Gemini 2.5 Pro
はそこらへんが大分改善されている。long context性能は高いし、 contextの複雑性への耐性が強い最近 implicit prompt cachingが実装されて大幅にコストダウンしたし、Sonnet しか使ってない人は絶対に gemini 2.5 proを試しておくべきコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 32

LLMと人間の認知特性の違い人間はなんやかんやでcontextの絞り込みがうまいから、認知特性の違いで「この程度ならできるやろ」って思ってミスることがある Sonnetは大局観がめちゃくちゃ弱い（context sizeの問題） contetxが小さいときは、人間が驚くレベルでLLMがめちゃくちゃうまくタスクをこなすでもちょっと状況が変わると急にポンコツになるポンコツになる理由が様々（じつはこれが一番の鍵）コーディングエージェントを作ってるけどうまくいかなかった話
～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 33

IV. どうやって負けパターンを回避するかコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 34

contextを小さくする必要がある選択肢: 1. リポジトリそのものを小さくする 2. リポジトリはそのままでも、小さなコンテキストを用意してあげる 3. チャットUIを使って履歴の切り替えをするコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～
@erukiti 35

1. リポジトリそのものを小さくするそもそも小さいリポジトリだけを用意する検証や学習用途モノリポジトリの、ルートではなくパッケージ一つだけをエディタで開いてしまう面倒は多いけど、面倒を乗り切れるならありアーキテクチャそのものをこれに適した形にする人間にとっても、分割は重要クリーンなアーキテクチャ
昔から言われてる設計論はやっぱりそれなりに正しいコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 36

2. 小さなコンテキストを作ってあげる作業ごとにコンテキストを切る設計モードと実装モードは、実践してる人も多いけど、もっと細かくしてもいいかもしれない例: 設計 -> 設計レビュー -> 実装
-> 受け入れテストでも実装が失敗するので、実装をさらに分割したいなんかもっといい分割アイデアがあれば是非僕も知りたい boomerang mode とか orchestrator modeのように、サブタスクをオーケストレーションするただし、プロンプトを生成するプロンプトを書かないといけないので、かなり面倒くさいプロンプトがゴツくなりすぎる。LLMを変えたりするときとか結構面倒本当はモードごとに、使えるMCPも限定したい（ソフトウェア型の改良ポイント）大設計から粒度の小さな詳細設計に落とし込む実装モードにおける情報を限定する設計書に、アクセスしていいディレクトリ一覧やファイル一覧を作ってあげる設計書から、スコープ外の情報を削るコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 37

3. チャットUIを使って履歴の切り替えをする失敗した作業は部分的に消して巻き戻す巻き戻した世界線での知見をプロンプトへ反映しなおすただし！！ GUIが使いづらい Cline/Rooの場合 checkpoint とチャット履歴改ざんがリンクしてないので、かなり面倒が多い
コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 38

どれだけ努力しても確率で失敗する！！ ChatGPT CodexやClaude Maxを使って定額制で、タスクを投げまくるたとえば、同じタスクを大量に投げてうまくいったやつを採用する。非決定論的な挙動のおかげでできる定額制じゃないと、コストを投げ捨ててる感じがして心と財布が痛むやつそこまで運任せじゃないやり方: 失敗したときの挙動を元にタスクを作り替えるたとえば失敗前提でタスクをやらせて観測をする
作業ログを見ながら、失敗する条件は何か？どういうコンテキストに絞り込めばいいか？必要なファイルは何だったか？いわゆる「高速目grep」をやらない。失敗前提なんだから、変なことしても「おまえは失敗する定めだったのだよ。次に期待するしかないな」とか悪役っぽい言葉をつぶやきながら、事後のログだけ分析しちゃえばOK！つまり、これをするツールやプロンプトがあればよいのでは？？？コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 39

エディタ間借り型は、失敗前提のやり方と相性が悪いエディタを占有されてしまう複数ディレクトリを作成して別々のインスタンスにしないと同時に実験ができない。時間がかかりすぎる途中であれこれ関与したくなる途中で、何かしらをやらないといけなくなっちゃう（フル権限を渡しちゃうと、リポジトリそのものを壊されるリスクすらある） VSCodeという、割と重いソフトの一部のインスタンスが、この目的に占有される動かし続けると、結構バグることがある（ここ二ヶ月で何度か、エディタ拡張や、エディタそのものが死ぬことがあった）
できれば、エディタと、コーディングエージェントを分離したい -> つまり、コンテナ作って消しての方が遙かに楽やん？？？？？？？コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 40

V. まとめコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 41

コーディングエージェントの未来は三択 1. コンテナ型エージェント本命エディタを占有されない！リトライ前提のやり方との相性がとてもよい！！間違いなくこれが伸びるはず！！！！（僕の主観です）というか、OpenAI本格参入によって今後は激戦が必至。たぶんGoogleなんかも参入すると思う GoogleとGitHubが本日参戦！！！！！ Anthropicもコンテナ型に参入すると思う
CLI型はたぶんコンテナ型に寄せられていくと思う 2. エディタ間借り型は、今よりも遙かにリッチな対話機能・UIを持つコーディングエージェントになってほしい！！！！始めたばかりの序盤（まだ何もない状態）とかならエディタ間借り型の方が有用なはず人間が関与しやすく学びを重視する context汚染をなんとか出来る仕組みが必要 3. 既存のエディタ間借り型向けの補助ツールを作る決してメインの流れではないが、実はいま一番必要かもしれない MCPを作るのもある意味これに近いが、contextを小さくする・context改ざんをするためのツールが必要コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 42

ということで次トライしたいこと補助ツールをあれこれ考えたい Rooの会話ログを食わせたら、小さいcontextに必要なものを作るプロンプトとかツールとかを作る contextを小さくするための各種工夫を泥臭くトライする作ってるコーディングエージェントも再設計をするコンテナ型を前提に考え直すステートレス型ってのもありかも？（常用するものではなくても検証には便利なはず） Roo Codeとかにcontributeしたい気持ちがありつつも、話を追いかけるのがコスト高すぎて、他者の OSSにcontributeできない...
僕の理想型と考えてるものは一定の議論を呼びそうなんだよな。。。 Discordやissuesとかの議論を、重要なものの解説をしてくれたり、ダイジェストで届けてくれるような、コミュニケーション補助ツールほしいコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 43

ご清聴ありがとうございました！コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 44

コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディング...

コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ / Two Month Agent Struggle

erukiti

More Decks by erukiti

Featured

Transcript

I. コーディングエージェントコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 6

コーディングエージェントの作り方適切なcontextを作るユーザーの意図を読み取るリポジトリの情報（ファイル一覧、ファイルの中身、grep結果など）を観測 terminalの実行して結果を観測 MCPとかあれこれ context組み立て -> LLM ->

コーディングエージェントのパターン 1. エディタ間借り型: GitHub Copilot Agent, Cursor agent, Cline, Roo

II. エディタ間借り型コーディングエージェントの仕組みと限界コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 13

Cline/Rooの動作フロー 1. システムプロンプトを準備する（固定） 2. 一番最初のユーザープロンプトを組み立てる 3. LLMを呼び出す 4. 3の結果から、文字列処理でXMLを抜きだす（後処理） 5.

例: AIの発言 <thinking> `bun run test` の結果、テストが失敗しました。主なエラーは `typecheck` と同様に、`Cannot

例: userの皮を被ったエージェントによるツールの結果 [read_file for 'docs/coding-rule.md'] Result: <file><path>docs/coding-rule.md</path> <content lines="1-160"> 1

contextが肥大化しすぎる1: Cline/Rooのシステムプロンプトツール定義巨大で複雑すぎる MCPの説明 use_mcp_tool というツールを使う MCPのサーバー・ツール定義・リソース定義などがある使うには適切なXMLを組み立てて use_mcp_tool

ユーザープロンプトの環境情報 <environment_details> # VSCode Visible Files # VSCode Open Tabs

LLMの性能問題 - 3.7 Sonnetは嘘をつきまくる！ゴールを自分の都合のいいようにねじ曲げる「完了しました！！！」 -> 実はダミー実装だった指示してるはずの、ユニットテストが壊れている「ユニットテストも正常です！」

LLMの性能問題 - 3.7 Sonnetはチートをする「俺、またなんかやっちゃいました？」コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 31

LLMの性能問題 - context size Sonnetはcontextが100kを超えたくらいから使い物にならなくなる（long context 性能が弱いのと、contextが複雑化している） Gemini 2.5 Pro

IV. どうやって負けパターンを回避するかコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 34

2. 小さなコンテキストを作ってあげる作業ごとにコンテキストを切る設計モードと実装モードは、実践してる人も多いけど、もっと細かくしてもいいかもしれない例: 設計 -> 設計レビュー -> 実装

V. まとめコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 41

ご清聴ありがとうございました！コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 44

コーディングエージェントを作ってるけどうまくいかなかった話 ～あるいは二ヶ月本気でコーディング...

コーディングエージェントを作ってるけどうまくいかなかった話 ～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ / Two Month Agent Struggle

More Decks by erukiti

Featured

Transcript

コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディング...

コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ / Two Month Agent Struggle