トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと

AI 効果検証meetup! #1 トークン数だけでは測れない Claude Code 組織展開の効果検証から学んだこと Masaki.k / 株式会社
Rehab for JAPAN

自己紹介 Masaki.k / 久保田将規株式会社 Rehab for JAPAN …介護 SaaS
のスタートアップ – 実務もやるEM / CTO 室兼務 – Claude Code を会社へ導入・その後の組織展開 ↑今日はこの指標について話します – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 2

はじめに — みなさんに質問です Q1 コーディングエージェントの組織展開、進んでいますか？ Q2 それとも、これから導入を進めようとしていますか？約
1 年間、現場で走ってきました。似たような悩みを、自分なりに解決してきたつもりです。今日は、とあるリアルな現場の "いま" をお話しします。トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 3

今日伝えたいこと決裁用と改善用の指標は別物 – トークン数だけでは測れない — PR 数・open → mergeの時間など定量指標とセット
– AI 支援 PR は GitHub Actions でラベル化が分析しやすい – 可視化だけでは改善しない — 見る場を作る – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 4

01 Claude Codeの社内決裁

POC と ROI 「外注 1 人月（約 100 万円）と比べてどうか」社内のパイロットチームでの導入前後の PR
数を比較 – 調査期間：2025年3–4月（導入前）と 2025年9–10月（導入後） Claude Code Max の導入効果を全社展開前に経営層へ提示 – 平均 +64.5% 生産性が上がるということで決裁に成功 – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 7

POC：導入前後の PR 数対象導入前導入後変化率フルスタックエンジニア 32 PR
36 PR +12.5% アプリエンジニア 42 PR 13 PR -69.0% エンジニアリングマネージャー 16 PR 56 PR +250% 1 人あたり平均（N=3） — — +64.5% ※調査期間：2025年3-4月（導入前）と2025年9-10月(導入後) トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 8

とはいえ平均値単一指標だけではなく、開発者の定性情報も考慮して多角的に評価する必要がある N=3 の小さな母数。平均値は決裁の説得材料にすぎない – EM は +250%、アプリエンジニアは -69% –
POC 期間中に役割がアプリから他領域へ拡大 – → 慣れない領域の学習に時間を取られた – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 9

02 実際に運用を始めるときのポイント

目的によって、見る指標を使い分ける決裁・説得向け「使われている」「外注より安い」運用改善向け「誰が伸びているか」「何を横展開すべきか」トークン使用量・ツールコスト・人的コスト – PR数、open
→ mergeまでの時間 – POC に基づく ROI 試算 – PR 数、open → mergeまでの時間 – AI 支援のあったPR の比率 – トークン使用量、品質指標 – スキル・サブエージェント利用状況 – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 12

03 計測の仕組み

効果測定のデータソース tokens トークン使用量 OpenTelemetry で計測し Grafana へ。モデル・コストも合わせて可視化。 skills スキル
/ サブエージェント社内プラグインの Hooks から、誰が何を使ったかをログ基盤へ送信。 ai-pr AI 支援 PR GitHub Actions が PR にラベルを付与。目的に合わせたAI利用率を集計。トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 14

OpenTelemetry + Grafana / 社内プラグイン Hooks トークン使用量・コスト・スキル・サブエージェント利用状況トークン・モデル・コスト（Grafana ）ログ基盤・プラグイン・ダッシュボードの詳細は
こちら使い込むほど成果が出やすい → まず「使われているか」を見る – スキル / サブエージェントは同じ基盤の Hook Activity・Tool 分析で可視化（Otel + Hooks） – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 15

04 AI ラベル

AI 支援 PR をどう数えるか × commit ベースの検出 commit message /
Co-authored-by › ✓ PR ラベル方式を採用 PR テンプレート + GitHub Actions 粒度が揃う PR 数や open → merge 時間も PR 単位で見るので、その PR が AI 利用かどうかが分かると分析の粒度が揃う。シグナルとして弱い – AI が直接 commit しない運用だと検出できない – PR 本文のチェックで明示的にラベル化 ✓ AI 利用かどうかを PR 単位で確実に追跡 ✓ トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 17

開発者の負担はチェック 1 つ PR テンプレート ## AI 支援 - [
] AI を活用して作成したPR である GitHub Actions if echo "$PR_BODY" | grep -qE \ '\- \[[xX]\] AI を活用して作成したPR である'; then gh pr edit $PR_NUM --add-label "generated-ai" fi PR 本文にチェックボックスを 1 つ置くだけ – opened / edited で Actions が generated-ai ラベルを付与 – AI 利用率をPR単位で追跡可能 – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 18

蛇足：開発の成果物はGitHub 中心へ集まっている PR コードドキュメント › GitHub › Claude Code
が読みやすく・編集しやすい Actions でラベル付与 → 運用コストほぼゼロ Jira ラベル運用も検討。ただし現場負担が大きいと判断し、見送り。 HUB すべてが同じ場所に集まるトークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 19

05 運用してみて分かったこと

弊社での全体傾向人員を最適化しても、1人あたりの開発生産性は約 2.2 倍 1 人あたり生産性開発人員 224 100 約4割
×2.2 前期直近 1 人あたり生産量（PR 数） ×2.2 +124% 人員はスリム化しながら、 1人あたりのアウトプットは倍増。 ※ 1年前と今の比較チーム総アウトプット +38% PR 数は全体で見ても増加オープン→レビュー −79% AIレビューが台頭レビュー→承認 +14% 唯一の悪化＝ボトルネック AI 活用率 0 → 58% AI支援ラベルのないrepoありトークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 24

トークン使用量の個人差が激しいメンバー別トークン使用量（多い順）よく使う人（少数）伸び悩む人（多数）プレーンな状態で使いがち使う人は言われなくても使い、そうでない人はあまり伸びない。スキル・サブエージェントの使用率にも個人差がある。
個人の改善どまりで、チーム改善が滞るリポジトリへの改善 PR は躊躇しがち。チームでハーネスを育てる点でハードルになる。トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 20

使ってるかの評価指標は段階的に変えて、複合で見る PHASE 01 まず使ってもらうトークン使用量とにかく AI に触れてもらうフェーズ。 ›
PHASE 02 成果に結びつけるトークン使用量 PR 数 open → merge 使われ始めたら、開発量・速度を組み合わせる。 › PHASE 03 品質も担保するトークン PR 数 open → merge 変更障害率など品質速度だけ見ると品質が心配 → 品質指標もセットで見る。定点観測半期ごとに、チーム単位で指標を定点観測する。トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 21

利用率向上のための施策トークン使用量ランキング・改善レポート毎週レポートをみんなが見える場所に配置、興味をもってもらう – Slack でもトークン使用量のランキング top10を発表
– 「使えている人」「使えていない人」を見つける – 使っている人同士は、トークンの多寡だけで判断しない – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 22

メトリクス / GitHub Github のメトリクスと重ねてみる PR リードタイムの内訳（open → merge ）
全体平均 8h 12h 4h 24h この開発者 5h 6h 3h 14h open → review review → approve approve → merge 開発量とトークン使用量 PR 数 / 週全体平均 3.2 この開発者 5.1 トークン使用量全体平均 1.0× この開発者 1.2× 総合的に見る使用率・開発量・リードタイムをまとめて見る。トークンを多く使っても、PR 数 / 開発速度に表れていなければ成果とは言い難い。トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 23

トークンが多い ≠ パワーユーザートークン × PR 数 × open →
merge × スキル・サブエージェント利用使っているだけで PR / 開発速度に表れなければ成果とは言いにくい – 逆にトークン控えめでもスキル利用、open → mergeまでの速度が改善 → うまく使えている – 高活用者からやり方を拾い、低活用側の活用促進へ – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 28

可視化しても見る文化がなければ改善につながらない INPUT 可視化した指標 › CULTURE みんなで見る文化をつくる › OUTCOME 改善が回り出す ↓
見る場のつくりかた 01 定例定期的な場に組み込むスプリントレビューなどで仕組み化し、必ず見る状態にする。 02 1on1 改善レポートを一緒に読む 1on1 で個人の使い方を振り返り、次の一手を決める。今後 AI 活用度を評価に組み込む活用度を評価の観点に取り込み、継続的な後押しにしていく。トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 26

07 これから

エンジニア以外への広げ方の模索 PdM / Designer / QA / CS など →
まず使ってもらうフェーズ – 成果物はGithubではない → Jira / To Do → Done のリードタイム – Claude Coworkの活用とOpenTelemetry – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 30

今後のテーマ 01 振り返り文化の定着スプリントレビューなど、定期的に指標を振り返る習慣をチームに根づかせる › 02 統合分析基盤の構築 Github
メトリクスとトークン使用量などを一元的に分析できる基盤をつくる › 03 — これから案件単位の ROI ウォッチプロジェクトごとに投資対効果を継続的に可視化していく仕組みなぜ今 ROI か今後従量課金化が進む兆し。そうなったときに備え、案件ごとのトークン使用量を計測できる基盤を今のうちに整えておく。トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 31

まとめ記事・関連資料 Speaker Deck x.com/Emukei_ 単一指標ではなく、複数の定量指標・定性指標で総合判断 – AI 支援 PR
は GitHub Actions でラベル化が分析しやすい – 可視化だけでなく継続して見る仕組みまでがセットで必要 – トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと 32

ご清聴ありがとうございました

トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと

トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと

Masaki Kubota

More Decks by Masaki Kubota

Other Decks in Technology

Featured

Transcript

AI 効果検証meetup! #1 トークン数だけでは測れない Claude Code 組織展開の効果検証から学んだこと Masaki.k / 株式会社

自己紹介 Masaki.k / 久保田将規株式会社 Rehab for JAPAN …介護 SaaS

はじめに — みなさんに質問です Q1 コーディングエージェントの組織展開、進んでいますか？ Q2 それとも、これから導入を進めようとしていますか？約

今日伝えたいこと決裁用と改善用の指標は別物 – トークン数だけでは測れない — PR 数・open → mergeの時間など定量指標とセット

01 Claude Codeの社内決裁

POC と ROI 「外注 1 人月（約 100 万円）と比べてどうか」社内のパイロットチームでの導入前後の PR

POC：導入前後の PR 数対象導入前導入後変化率フルスタックエンジニア 32 PR

とはいえ平均値単一指標だけではなく、開発者の定性情報も考慮して多角的に評価する必要がある N=3 の小さな母数。平均値は決裁の説得材料にすぎない – EM は +250%、アプリエンジニアは -69% –

02 実際に運用を始めるときのポイント

目的によって、見る指標を使い分ける決裁・説得向け「使われている」「外注より安い」運用改善向け「誰が伸びているか」「何を横展開すべきか」トークン使用量・ツールコスト・人的コスト – PR数、open

03 計測の仕組み

効果測定のデータソース tokens トークン使用量 OpenTelemetry で計測し Grafana へ。モデル・コストも合わせて可視化。 skills スキル

OpenTelemetry + Grafana / 社内プラグイン Hooks トークン使用量・コスト・スキル・サブエージェント利用状況トークン・モデル・コスト（Grafana ）ログ基盤・プラグイン・ダッシュボードの詳細は

04 AI ラベル

AI 支援 PR をどう数えるか × commit ベースの検出 commit message /

開発者の負担はチェック 1 つ PR テンプレート ## AI 支援 - [

蛇足：開発の成果物はGitHub 中心へ集まっている PR コードドキュメント › GitHub › Claude Code

05 運用してみて分かったこと

弊社での全体傾向人員を最適化しても、1人あたりの開発生産性は約 2.2 倍 1 人あたり生産性開発人員 224 100 約4割

使ってるかの評価指標は段階的に変えて、複合で見る PHASE 01 まず使ってもらうトークン使用量とにかく AI に触れてもらうフェーズ。 ›

利用率向上のための施策トークン使用量ランキング・改善レポート毎週レポートをみんなが見える場所に配置、興味をもってもらう – Slack でもトークン使用量のランキング top10を発表

メトリクス / GitHub Github のメトリクスと重ねてみる PR リードタイムの内訳（open → merge ）

トークンが多い ≠ パワーユーザートークン × PR 数 × open →

可視化しても見る文化がなければ改善につながらない INPUT 可視化した指標 › CULTURE みんなで見る文化をつくる › OUTCOME 改善が回り出す ↓

07 これから

エンジニア以外への広げ方の模索 PdM / Designer / QA / CS など →

今後のテーマ 01 振り返り文化の定着スプリントレビューなど、定期的に指標を振り返る習慣をチームに根づかせる › 02 統合分析基盤の構築 Github

まとめ記事・関連資料 Speaker Deck x.com/Emukei_ 単一指標ではなく、複数の定量指標・定性指標で総合判断 – AI 支援 PR

ご清聴ありがとうございました