The Tyranny of Not Measuring

測らなすぎなぜAI駆動開発のナレッジは役に⽴たないのか？ The Tyranny of Not Measuring

Coding Agentの富豪的アプローチ

-Maxxing 「◯◯マキシング（Maxxing）」とは？ MZ世代の⾃分磨きはポテンシャルの最⼤化へ https://new-standard.co.jp/posts/26147

Token Maxxing > (私訳) Nvidiaのジェンスン‧ フアンCEOは、年俸50万ドルのエンジニアが業務を遂⾏するにあたって、25万ドル相当のAI トークンを消費していないとしたら、⾮常に危機感を覚える
と語りました。 Jensen Huang says Nvidia engineers should use AI tokens worth half their annual salary every year to be fully productive — compares not using AI to using paper and pencil for designing chips https://www.tomshardware.com/tech-industry/artificial-intelligence/jensen-huang-says-nvidia-engineers-should-use-ai-tokens-worth-half-their-ann ual-salary-every-year-to-be-fully-productive-compares-not-using-ai-to-using-paper-and-pencil-for-designing-chips

OpenClawの開発者は$130万/⽉のAPIトークンを使う $130万 = 約2億円/⽉の内訳 - チーム： 3⼈ - 並列数
： x100 Instance - Fast(1.5倍速) ： x2.5 Token ※参考：どうすれば⽉2億円分のトークンを燃やせるのか https://x.com/steipete/status/2055346265869721905

6 多重実⾏の実装例：Agent Teams Claude Codeが複数の Claude Code インスタンスを連携して動作させる機能。チームリーダーのセッションがタスクを割り当て、調整した結果を統合。 https://code.claude.com/docs/en/agent-teams

7 多重実⾏の実装例：Dynamic Workﬂows Claude Codeが数⼗〜数百のサブエージェントのためにオーケストレーション⽤のスクリプトを動的に⽣成し、並列実装クラスターを運⽤する。 https://x.com/_catwu/status/2060054180379689074

8 ⻑期⾃⾛の実装例：Ralph Wiggum Loop - 「ザ‧シンプソンズ」のRalph Wiggumのように”諦めない”実装 - Ralph Wiggum
Loopの最⼩系 - AI AgentへPromptを毎回渡す - タスクが完了するまでLoop - Loop毎にContextを初期化 - ⾃⾛に向くタスク - 完了定義が曖昧なタスク - ⼤量のToDo消化 https://github.com/langchain-ai/deepagents/tree/main/examples/ralph_mode

9 ⻑期⾃⾛の実装例：/goalコマンド Ralph Wiggum Loop相当、数時間〜数⽇の間動く”⾃⾛”の実装 https://x.com/cline/status/2065192418006441996

”⾃動運転レベル４”の到来副操縦士(Copilot) レベル０ AI支援なしレベル1 AI支援 Chat レベル2 AI支援
補完＋Chat レベル3 Agent 人間が支援レベル4 Agent 人間の支援なしレベル5 実装の完全自動生成操縦士(Pilot) ドライバー席助手席後部座席人間の支援なしでの長時間自走 10 2025/02 2026/02

定額プランの功罪

LLMの料⾦プランの形態 - サブスクリプション - ⽉額 $10〜$200でのサブスクリプション - 完全無制限ではなく、レート制限などの制約はある - リクエストベース
- LLM呼び出し(リクエスト)単位での従量課⾦ - トークンベース - 利⽤トークン毎の完全従量課⾦

LLMの料⾦プランが変更になった例 Cursor ：リクエスト → トークン https://cursor.com/ja/blog/june-2025-pricing

LLMの料⾦プランが変更になった例 GitHub Copilot ：リクエスト → トークン https://github.blog/jp/2026-04-28-github-copilot-is-moving-to-usage-based-billing/

LLMの料⾦プランが変更になった例 Claude(SDK / Headless) ：サブスクリプション → トークン https://github.blog/jp/2026-04-28-github-copilot-is-moving-to-usage-based-billing/

なぜ料⾦プランはトークンベースへ変更されるのか - サブスクリプション - ⽉額 $10〜$200でのサブスクリプション - 完全無制限ではなく、レート制限などの制約はある - リクエストベース
- LLM呼び出し(リクエスト)単位での従量課⾦ - トークンベース - 利⽤トークン毎の完全従量課⾦

サブスクリプションの価格は実態と乖離している ※公式が公開した数字ではない your 20 AI subscription is worth $400 https://www.youtube.com/shorts/XeMxbfzlbDU

計測例：Claude Code Pro($20/⽉) ※Claude Opus 4.8での1セッション(レビュー + issue起票) https://x.com/_watany/status/2066022248679608455

常時起動型エージェントの過剰なトークン利⽤ OpenClawの何が特別なのか？ https://blog.lai.so/openclaw/ Claude Code サードパーティ制限の全容と移行ガイド — OpenClaw・OpenCode ユーザー必読 https://zenn.dev/kai_kou/articles/200-claude-code-third-party-policy-guide

リクエスト毎課⾦はAI Agent以後、割に合わない

各社のLLM料⾦プラン⾒直しの背景 - サブスクリプション - 現状が利益度外視の格安状態 - LLMバックエンドAPIとして超⾼頻度に呼び出される - リクエストベース -
エージェント前提の呼び出し(数⼗〜数百往復)はチャット時代の費⽤感(１呼出 - １応答)と合わない - トークンベース - 利⽤トークン毎の完全従量課⾦ - 利⽤者には割⾼に感じるが、やむを得ない

前提が変わった時に富豪的アプローチは成⽴するのだろうか

企業向けの定額プランは多くない注：2026/06時点での課題 - Business GPT & Codex = 厳密な定額ではない (超過時は別途Credit)
- Claude Team Premium = 5〜150⼈向け GitHub Copilot法⼈利⽤の移⾏先検討結果 https://zenn.dev/nuits_jp/articles/2026-06-07-copilot-business-migration

トークン使⽤量は明確に増え続けているエージェント化が迫るAIコストの⼆極化 https://www.dir.co.jp/report/research/economics/japan/20260615_025825.pdf

Agentic Codingによるトークン使⽤量の⼤幅な増加 How Do AI Agents Spend Your Money? https://arxiv.org/abs/2604.22750?utm_source=chatgpt.com

AIトークンの費⽤を正当化することは簡単ではない Uberは4⽉時点で2026年のClaude Codeの予算を使い果たした。 > (私訳)「おそらく、⽬に⾒えない形でもっと多くの機能が出荷されているはずですが、そうした統計データと『よし、これで消費者にとって役⽴つ機能が25％増えた』という結論を結びつけるのは⾮常
に難しいのです。」 Uber's COO says it's getting harder to justify the money spent on AI tokenmaxxing https://www.businessinsider.com/uber-coo-andrew-macdonald-ai-token-spending-harder-justify-2026-5

トークンエコノミーと会計区分の難しさ https://x.com/yamaken_66/status/2059770851957084407

トークンあたりのコスト低下は誰のためか Cline創業者のツイート(抜粋) — > 確かに、トークンあたりのコストは前年⽐で約10分の1にまで低下しました。しかし、それはAI企業にとってのコストであって、あなたにとってのコストではありません。 https://x.com/sdrzn/status/2035067296188899809
Saoud Rizwan ClineのCEO

LLMのコストが「毎年下がる」は真か？フラッグシップモデルの値付けは⼤きく変動していない - 2024/05：GPT-4o (登場時) - $5.00 / $15.00
- 2025/04：o3 (登場時) - $10.00/ $40.00 - 2026/06：Claude Fable 5 - $10.00/ $50.00 https://x.com/wmoto_ai/status/2064535938127286292?s=20

コーディングだけに予算を割きすぎていないかなぜAIは組織を速くしないのか令和の腑分け https://speakerdeck.com/sugino/nazeaihazu-zhi-wosu-kusinainoka-ling-he-nofu-fen-ke

ジャストインタイムから律速と平準化を学ぶ【図解】ジャストインタイム(JIT) https://www.smartmat.io/column/business_efficiency/8125

富豪的アプローチの没落 - エージェント操作は従量課⾦型へ進んでいる - ビジネスとして浪費(Maxxing)への厳しい⽬線 - トークンコストは下がるとは⾔い難い状況 - 性能あたりの価格が利益回収で相殺される -
CodingへのMaxxingが⽬詰まりを起こす危険性 - 他⼯程でのエージェント利⽤の拡⼤‧リバランス

投下するリソースが無限であれば成功は当たり前であり、限られたリソースでの成功が求められる

トークンコスト‧マネジメント

トークンマネジメントへの取り組み⽅ - トークン使⽤量の計測 - 利⽤者、API層、アカウント管理 - モデル選定 - Composer、OSS -
エージェントでの戦術 - TaskList Driven、トークン圧縮

サブスクでの計測はToken Maxxingの側⾯があった https://x.com/_watany/status/2053056216428065172

例：利⽤者側(Coding Agent)で測る GitHub Copilot CLIの例：※事前設定

例：利⽤者側(Coding Agent)で測る計測コマンド実⾏：”npx ccusage@latest copilot monthly”

例：従量課⾦APIに設定したプロキシで測る LiteLLMの予算機能でLLMの利⽤料⾦に上限を設定する https://dev.classmethod.jp/articles/litellm-budget/

ROIを加味したモデル選定 > 私訳 (Uberは年間予算を4か⽉で使い果たしたが、) もしも1/20の単価である DeepSeek V4を選定していたら、7年分利⽤できただろう https://x.com/sdrzn/status/2047537442719428969

⾼いコストパフォーマンスのモデル(Composer 2.5) Cursor新モデル「Composer 2.5」はGPT-5.5級のコーディング性能を低コストで狙うAIエージェント https://gigazine.net/news/20260519-cursor-composer-2-5/

⾃⾛がトークン最適化された動きとは限らない https://x.com/hawkymisc/status/2059983783026475205

仕様駆動開発で⽅向性を定めてから探索する例 Vibe Specs: Vibe Coding That Actually Works https://lukebechtel.com/blog/vibe-speccing 46

タスクを廉価モデルへオフロードする例 https://x.com/fadysan_rh/status/2065640794351095990 47

⼊⼒Contextを削減する実装例 Claudeトークン消費を抑えて５倍使う: 「原始⼈」⼝調が80%削減 https://zenn.dev/mikana0918/articles/7ad57493a04f88 48 caveman：英語を圧縮するスキル。冠詞やフィラーを取り除き、 Token使⽤量を約70%削減

⼊⼒Contextを削減する実装例 https://github.com/rtk-ai/rtk 49 RTK（Rust Token Killer） - Token消費を60〜90%削減する CLIプロキシ -
コメント、空⽩、ボイラープレートの⾃動除去 - テスト実⾏時の成功結果を省略 - ビルド時のError‧Warn抽出 - エージェントがコマンド実⾏時に Hookで書き換える - 例：ls → rtk ls -

⼊⼒Contextを削減する実装例 https://github.com/chopratejas/headroom 50 Headroom - Netﬂixでも利⽤実績のあるContext 圧縮レイヤー - CCR（Compress-Cache-Retrieve）という可逆圧縮
- JSONの不要部分削除 - コードをAST解析し圧縮 - 軽量⾔語モデルでテキスト圧縮 - JSON-heavyなAPIレスポンス、⼤量のログ読み込みで効果

結びに https://www.msz.co.jp/book/detail/08793/ 51 - 「測定できるものが必ずしも測定に値するものだとは限らない」 - 出典：ジェリー‧Z‧ミュラー『測りすぎ ――
なぜパフォーマンス評価は失敗するのか？』 - しかしトークンを何も測らず居られた時代のナレッジから次に進まなくてはいけない - 「未来のLLMが解決してくれる」のを期待しつつ、まずは計測することが⼤切

The Tyranny of Not Measuring

The Tyranny of Not Measuring

More Decks by watany

Featured

Transcript