Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Tyranny of Not Measuring

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for watany watany
June 19, 2026
41

The Tyranny of Not Measuring

Avatar for watany

watany

June 19, 2026

Transcript

  1. Token Maxxing > (私訳) Nvidiaのジェンスン‧ フアンCEOは、年俸50万ドルの エンジニアが業務を遂⾏するに あたって、25万ドル相当のAI トークンを消費していないと したら、⾮常に危機感を覚える

    と語りました。 Jensen Huang says Nvidia engineers should use AI tokens worth half their annual salary every year to be fully productive — compares not using AI to using paper and pencil for designing chips https://www.tomshardware.com/tech-industry/artificial-intelligence/jensen-huang-says-nvidia-engineers-should-use-ai-tokens-worth-half-their-ann ual-salary-every-year-to-be-fully-productive-compares-not-using-ai-to-using-paper-and-pencil-for-designing-chips
  2. OpenClawの開発者は$130万/⽉のAPIトークンを使う $130万 = 約2億円/⽉の内訳 - チーム : 3⼈ - 並列数

    : x100 Instance - Fast(1.5倍速) : x2.5 Token ※参考: どうすれば⽉2億円分のトークンを燃やせるのか https://x.com/steipete/status/2055346265869721905
  3. 8 ⻑期⾃⾛の実装例:Ralph Wiggum Loop - 「ザ‧シンプソンズ」のRalph Wiggumのように”諦めない”実装 - Ralph Wiggum

    Loopの最⼩系 - AI AgentへPromptを毎回渡す - タスクが完了するまでLoop - Loop毎にContextを初期化 - ⾃⾛に向くタスク - 完了定義が曖昧なタスク - ⼤量のToDo消化 https://github.com/langchain-ai/deepagents/tree/main/examples/ralph_mode
  4. ”⾃動運転レベル4”の到来 副操縦士(Copilot) レベル0 AI支援 なし レベル1 AI支援 Chat レベル2 AI支援

    補完 +Chat レベル3 Agent 人間が 支援 レベル4 Agent 人間の 支援なし レベル5 実装の 完全自動 生成 操縦士(Pilot) ドライバー席 助手席 後部座席 人間の支援なしでの長時間自 走 10 2025/02 2026/02
  5. 各社のLLM料⾦プラン⾒直しの背景 - サブスクリプション - 現状が利益度外視の格安状態 - LLMバックエンドAPIとして超⾼頻度に呼び出される - リクエストベース -

    エージェント前提の呼び出し(数⼗〜数百往復)は チャット時代の費⽤感(1呼出 - 1応答)と合わない - トークンベース - 利⽤トークン毎の完全従量課⾦ - 利⽤者には割⾼に感じるが、やむを得ない
  6. 企業向けの定額プランは多くない 注:2026/06時点での課題 - Business GPT & Codex = 厳密な定額ではない (超過時は別途Credit)

    - Claude Team Premium = 5〜150⼈向け GitHub Copilot法⼈利⽤の移⾏先検討結果 https://zenn.dev/nuits_jp/articles/2026-06-07-copilot-business-migration
  7. LLMのコストが「毎年下がる」は真か? フラッグシップモデルの値付けは ⼤きく変動していない - 2024/05:GPT-4o (登場時) - $5.00 / $15.00

    - 2025/04:o3 (登場時) - $10.00/ $40.00 - 2026/06:Claude Fable 5 - $10.00/ $50.00 https://x.com/wmoto_ai/status/2064535938127286292?s=20
  8. ⼊⼒Contextを削減する実装例 https://github.com/rtk-ai/rtk 49 RTK(Rust Token Killer) - Token消費を60〜90%削減する CLIプロキシ -

    コメント、空⽩、ボイラー プレートの⾃動除去 - テスト実⾏時の成功結果を省略 - ビルド時のError‧Warn抽出 - エージェントがコマンド実⾏時に Hookで書き換える - 例:ls → rtk ls -
  9. ⼊⼒Contextを削減する実装例 https://github.com/chopratejas/headroom 50 Headroom - Netflixでも利⽤実績のあるContext 圧縮レイヤー - CCR(Compress-Cache-Retrieve) という可逆圧縮

    - JSONの不要部分削除 - コードをAST解析し圧縮 - 軽量⾔語モデルでテキスト圧縮 - JSON-heavyなAPIレスポンス、⼤量 のログ読み込みで効果
  10. 結びに https://www.msz.co.jp/book/detail/08793/ 51 - 「測定できるものが必ずしも測定に 値するものだとは限らない」 - 出典:ジェリー‧Z‧ミュラー『測りす ぎ ――

    なぜパフォーマンス評価は失敗するのか?』 - しかしトークンを何も測らず居られた時代 のナレッジから次に進まなくてはいけない - 「未来のLLMが解決してくれる」のを期待 しつつ、まずは計測することが⼤切