Upgrade to Pro — share decks privately, control downloads, hide ads and more …

トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと

トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと

Avatar for Masaki Kubota

Masaki Kubota

June 04, 2026

More Decks by Masaki Kubota

Other Decks in Technology

Transcript

  1. 自己紹介 Masaki.k / 久保田将規 株式会社 Rehab for JAPAN …介護 SaaS

    のスタートアップ – 実務もやるEM / CTO 室兼務 – Claude Code を会社へ導入・その後の組織展開 ↑今日はこの指標について話します – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 2
  2. はじめに — みなさんに質問です Q1 コーディングエージェントの組 織展開、進んでいますか? Q2 それとも、これから導入を進め ようとしていますか? 約

    1 年間、現場で走ってきました。似たような悩みを、自分なりに解決してきたつもりです。 今日は、とあるリアルな現場の "いま" をお話しします。 トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 3
  3. 今日伝えたいこと 決裁用と改善用の指標は別物 – トークン数だけでは測れない — PR 数・open → mergeの時間など定量指標 とセット

    – AI 支援 PR は GitHub Actions でラベル化が分析しやすい – 可視化だけでは改善しない — 見る場を作る – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 4
  4. POC と ROI 「外注 1 人月(約 100 万円)と比べてどうか」 社内のパイロットチームでの導入前後の PR

    数 を比較 – 調査期間:2025年3–4月(導入前)と 2025年9–10月(導入後) Claude Code Max の導入効果を全社展開前に経営層へ提示 – 平均 +64.5% 生産性が上がるということで決裁に成功 – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 7
  5. POC:導入前後の PR 数 対象 導入前 導入後 変化率 フルスタックエンジニア 32 PR

    36 PR +12.5% アプリエンジニア 42 PR 13 PR -69.0% エンジニアリングマネージャー 16 PR 56 PR +250% 1 人あたり平均(N=3) — — +64.5% ※調査期間:2025年3-4月(導入前)と2025年9-10月(導入後) トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 8
  6. とはいえ平均値 単一指標だけではなく、開発者の定性情報も考慮して多角的に評価する必要がある N=3 の小さな母数。平均値は決裁の説得材料にすぎない – EM は +250%、アプリエンジニアは -69% –

    POC 期間中に 役割がアプリから他領域へ拡大 – → 慣れない領域の学習に時間を取られた – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 9
  7. 目的によって、見る指標を使い分ける 決裁・説得向け 「使われている」 「外注より安い」 運用改善向け 「誰が伸びているか」 「何を横展開すべきか」 トークン使用量・ツールコスト・人的コスト – PR数、open

    → mergeまでの時間 – POC に基づく ROI 試算 – PR 数、open → mergeまでの時間 – AI 支援のあったPR の比率 – トークン使用量、品質指標 – スキル・サブエージェント利用状況 – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 12
  8. 効果測定のデータソース tokens トークン使用量 OpenTelemetry で計測し Grafana へ。モデル・コスト も合わせて可視化。 skills スキル

    / サブエージェン ト 社内プラグインの Hooks か ら、誰が何を使ったかをログ 基盤へ送信。 ai-pr AI 支援 PR GitHub Actions が PR にラベ ルを付与。目的に合わせたAI利 用率を集計。 トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 14
  9. OpenTelemetry + Grafana / 社内プラグイン Hooks トークン使用量・コスト・スキル・サブエージェント利用状況 トークン・モデル・コスト(Grafana ) ログ基盤・プラグイン・ダッシュボードの詳細は

    こちら 使い込むほど成果が出やすい → まず 「使われているか」 を見る – スキル / サブエージェントは同じ基盤の Hook Activity・Tool 分析 で可視化(Otel + Hooks) – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 15
  10. AI 支援 PR をどう数えるか × commit ベースの検出 commit message /

    Co-authored-by › ✓ PR ラベル方式を採用 PR テンプレート + GitHub Actions 粒度が揃う PR 数や open → merge 時間も PR 単位で見るので、その PR が AI 利用かどうかが分かると分析の 粒度が揃う。 シグナルとして弱い – AI が直接 commit しない運用だと検出できない – PR 本文のチェックで 明示的にラベル化 ✓ AI 利用かどうかを PR 単位で確実に追跡 ✓ トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 17
  11. 開発者の負担はチェック 1 つ PR テンプレート ## AI 支援 - [

    ] AI を活用して作成したPR である GitHub Actions if echo "$PR_BODY" | grep -qE \ '\- \[[xX]\] AI を活用して作成したPR である'; then gh pr edit $PR_NUM --add-label "generated-ai" fi PR 本文にチェックボックスを 1 つ置くだけ – opened / edited で Actions が generated-ai ラベルを付与 – AI 利用率をPR単位で追跡可能 – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 18
  12. 蛇足:開発の成果物はGitHub 中心へ集まっている PR コード ドキュメント › GitHub › Claude Code

    が 読みやすく・編集しやすい Actions でラベル付与 → 運用コストほぼゼロ Jira ラベル運用も検討。ただし現場負担が大きいと判断し、見送り。 HUB すべてが同じ場所に集 まる トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 19
  13. 弊社での全体傾向 人員を最適化しても、1人あたりの開発生産性は約 2.2 倍 1 人あたり生産性 開発人員 224 100 約4割

    ×2.2 前期 直近 1 人あたり生産量(PR 数) ×2.2 +124% 人員はスリム化しながら、 1人あたりのアウトプットは倍増。 ※ 1年前と今の比較 チーム総アウトプット +38% PR 数は全体で見ても増加 オープン→レビュー −79% AIレビューが台頭 レビュー→承認 +14% 唯一の悪化=ボトルネック AI 活用率 0 → 58% AI支援ラベルのないrepoあり トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 24
  14. トークン使用量の個人差が激しい メンバー別 トークン使用量(多い順) よく使う人(少数) 伸び悩む人(多数) プレーンな状態で使いがち 使う人は言われなくても使い、そうでない人は あまり伸びない。 スキル・サブエージェントの使用率にも個人差 がある。

    個人の改善どまりで、チーム改善が滞る リポジトリへの改善 PR は躊躇しがち。チーム でハーネスを育てる点でハードルになる。 トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 20
  15. 使ってるかの評価指標は段階的に変えて、複合で見る PHASE 01 まず使ってもらう トークン使用量 とにかく AI に触れてもらうフェー ズ。 ›

    PHASE 02 成果に結びつける トークン使用量 PR 数 open → merge 使われ始めたら、開発量・速度を組 み合わせる。 › PHASE 03 品質も担保する トークン PR 数 open → merge 変更障害率など品質 速度だけ見ると品質が心配 → 品質指 標もセットで見る。 定点観測 半期ごとに、チーム単位で指標を定点観測する。 トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 21
  16. 利用率向上のための施策 トークン使用量ランキング・改善レポート 毎週レポートを みんなが見える場所 に配 置、興味をもってもらう – Slack でもトークン使用量のランキング top10を発表

    – 「使えている人」 「使えていない人」 を見 つける – 使っている人同士は、トークンの多寡だけ で判断しない – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 22
  17. メトリクス / GitHub Github のメトリクスと重ねてみる PR リードタイムの内訳(open → merge )

    全体平均 8h 12h 4h 24h この開発者 5h 6h 3h 14h open → review review → approve approve → merge 開発量とトークン使用量 PR 数 / 週 全体平均 3.2 この開発者 5.1 トークン使用量 全体平均 1.0× この開発者 1.2× 総合的に見る 使用率・開発量・リードタイムを まとめて見る。トークンを多く使っても、PR 数 / 開発速度に表れて いなければ成果とは言い難い。 トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 23
  18. トークンが多い ≠ パワーユーザー トークン × PR 数 × open →

    merge × スキル・サブエージェント利用 使っているだけで PR / 開発速度に表れなければ成果とは言いにくい – 逆にトークン控えめでも スキル利用、open → mergeまでの速度 が改善 → うまく使えている – 高活用者からやり方を拾い、低活用側の活用促進へ – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 28
  19. 可視化しても見る文化がなければ改善につながらない INPUT 可視化した指標 › CULTURE みんなで見る文化をつくる › OUTCOME 改善が回り出す ↓

    見る場のつくりかた 01 定例 定期的な場に組み込む スプリントレビューなどで仕組み化 し、必ず見る状態にする。 02 1on1 改善レポートを一緒に読む 1on1 で個人の使い方を振り返り、次 の一手を決める。 今後 AI 活用度を評価に組み込む 活用度を評価の観点に取り込み、継 続的な後押しにしていく。 トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 26
  20. エンジニア以外への広げ方の模索 PdM / Designer / QA / CS など →

    まず使っ てもらうフェーズ – 成果物はGithubではない → Jira / To Do → Done のリードタイム – Claude Coworkの活用とOpenTelemetry – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 30
  21. 今後のテーマ 01 振り返り文化の定着 スプリントレビューなど、定期 的に指標を振り返る習慣をチー ムに根づかせる › 02 統合分析基盤の構築 Github

    メトリクスとトークン使 用量などを一元的に分析できる 基盤をつくる › 03 — これから 案件単位の ROI ウォッチ プロジェクトごとに投資対効果 を継続的に可視化していく仕組 み なぜ今 ROI か 今後 従量課金化 が進む兆し。そうなったときに備え、案件ごとのトークン使用量を計 測できる基盤を今のうちに整えておく。 トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 31
  22. まとめ 記事・関連資料 Speaker Deck x.com/Emukei_ 単一指標ではなく、複数の定量指標・定性指標で総合判断 – AI 支援 PR

    は GitHub Actions でラベル化が分析しやすい – 可視化 だけでなく 継続して見る仕組み までがセットで必要 – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 32