Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AI活用のROI、どう測る? DMM.com 開発責任者から学ぶ「AI効果検証のノウハウ」...

生成AI活用のROI、どう測る? DMM.com 開発責任者から学ぶ「AI効果検証のノウハウ」 / ROI of AI

TECH PLAY「生成AI活用のROI、どう測る? DMM.com 開発責任者から学ぶ「AI効果検証のノウハウ」」の登壇資料
https://techplay.jp/event/984918

More Decks by Masato Ishigaki / 石垣雅人

Other Decks in Technology

Transcript

  1. 2 About me
 石垣 雅人
 合同会社 DMM.com
 
 プラットフォーム開発本部 副本部長


    / 第1開発部 部長 / VPoE室 / アルファ室
 
 ・連載中 : 『開発生産性の多角的視点』(CodeZine) 
 ・連載中 : 『スモールチームが武器になる時代へ』(ProductZine) 
 ・連載中 : 『群知能から紐解く、スケールする“組織“の作り方 』(NewsPicks)
 
 2
  2. 人による量のスケーリングの終わり
 10 人の増やして量を作る
 2 pizzaで分解する
 アジャイル × マイクロサービス 
 人とのコミュニケーションパス

    が膨大
 人とのコミュニケーションパス を縮小
 AIで代替する
 1チームあたりの
 規模が縮小.AIとの対話へ

  3. 人材関連費 ・給与手当 ・賞与 ・法定福利費 ・福利厚生費 ・地代家賃 ・採用費 ・販管費 / 支払い手数料

    販管費/支払手数料 (ライセンス料) P/L + + + + 人にかかるお金とAIにかけるお金による変化 +700万 +700万 +700万 +700万 +700万 +20万 +20万 +700万 +700万 +20万 +20万 +20万 スケール方法 13
  4. AIエージェントへの投資対効果について - 投資対効果の「投資の部分」
 - AIエージェントやFindy Team+といったチームの生産性 に寄与するものコスト(人件費は除く) 
 - 投資対効果の「効果の部分」


    - 生産量・リードタイム・個々の生産性(同じAIエージェント の金額でも数値は違う)
 ・AIエージェント
 ・Findy Team+
 ・その他、チーム生産性に寄与 するもの
 ・生産量増
 ・リードタイム短縮
 ・1人あたりの生産性 
 output input 15
  5. - 「感覚的には早くなっている」をどう自分たちの行動ログとして表出化させるか
 - 定量データで言えば「AIに置き換え」と「AIとの協働」で難易度は違う
 - └ AIに置き換え → 人でやっていたものを丸々削減時間とする
 -

    └ AI協働 → 人でやったときの予測とAI協働での実績比較やAAテストからのABテス トはできないので移動平均などで抽出して行う
 投資対効果の「効果の部分」 17
  6. 生産量・リードタイム・1人あたりの生産性
 - 生産量 : ノイズを取り除いた状態でのPR数などの数的推移
 - リードタイム : 類推見積りでおおよそ一致した施策のリードタイム比較 


    - 1人あたりの生産性 : 同じAIエージェントの金額でも個々で 成果がバラバラの場合が多い。そのため、 1人1人可視化していく必要あり
 - SPACEなどの定性評価も組み合わせて 筋が良さそうな指標を組み合わせて生産活動の変化傾向 を 見ていく
 投資対効果の「効果の部分」 18
  7. Findy Team+, Findy AIによる比較
 指標 人間チーム Devin AI 勝者 総合⽣産量

    189件 74件 ⼈間チーム 個別⽣産性 15.8件/⼈ 74件 Devin AI 継続性 不規則 111⽇中74⽇活動 Devin AI ピーク⽣産 3件/⽇ (最⼤) 9件/⽇ (最⼤) Devin AI ある平均的な1チームの例(3ヶ月) 
 【生産性分析】

  8. Findy Team+, Findy AIによる比較
 ある平均的な1チームの例(3ヶ月) 
 【品質分析】
 指標 人間チーム Devin

    AI 勝者 マージ率 85-90% 60.1% ⼈間チーム レビュー品質 ⾃⼰完結型 要⼈間確認 ⼈間チーム 複雑度対応 ⾼度な設計可能 定型作業のみ ⼈間チーム エラー率 10-15% 40% ⼈間チーム
  9. Findy Team+, Findy AIによる比較
 ある平均的な1チームの例(3ヶ月) 
 【作業内容分析】
 人間チーム (189件) の作業分布

    新機能開発 40% (76件) バグ修正‧改善 30% (57件) テスト実装 20% (38件) 保守‧リファクタ 10% (18件) Devin AI (74件) の作業分布 コード変換 60% (44件) ‒ Kotlin-Java テスト変換 30% (22件) 機能改善 10% (8件)
  10. AI疲れとレビュー負荷の違い
 - AI疲れ
 - Devin/ Cursor background agentを 非同期で動かしながら手元では 同期的にAIエージェントとvibe-codingをし

    ているというメンバーが増える。AIのキャッチアップ疲れもある 
 - 使いすぎると単一時間あたりの業務密度が高くなり、人が バーンアウトするときもあるか
 - 以前までは、働き過ぎの部分は残業などでキャッチしてきましたが、AI時代だとそうもいかないこともあるため、 どう労務を見ていくかは思案し始めている 
 - レビュー負荷
 - AIが作ったものをどう評価し、成果物としてリリースしていくかに抵抗がある組織も多い 
 - しかし、AIエージェントによる生産量が増えることは間違いないので、人によるレビュー限界が来る 
 - 一部、LLM as a Judgeの試験的導入をしているチームもある