Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データと事例で振り返るDevin導入の"リアル" / The Realities of Dev...

データと事例で振り返るDevin導入の"リアル" / The Realities of Devin Reflected in Data and Case Studies

2025/5/12に開催の「御社のDevin、何してる? 各社の事例に学ぶ!組織の一員としての付き合い方」の登壇資料です。
https://findy.connpass.com/event/352468/

Avatar for r-kagaya

r-kagaya

May 12, 2025
Tweet

More Decks by r-kagaya

Other Decks in Programming

Transcript

  1. © 2024 Loglass Inc. 0 © 2024 Loglass Inc. 御社のDevin、何してる?

    各社の事例に学ぶ!組織の一員としての付き合い方 データと事例で振り返る Devin導入の"リアル" r.kagaya 2025.5.12
  2. © 2024 Loglass Inc. 4 ログラスのAIコーディングツール導入の歩み 12月 一部メンバーは Cursor等を利用 DevinのPoC開始

    1月 主に新規事業チーム でCursor/Devinを利 用 2月 エンジニア全員に Cursorを配布 3月 既存事業側でも Cursor利用が一気 に進む 時間軸 4月 既存事業チームでも Devinの導入開始 (20ドルプラン)
  3. © 2024 Loglass Inc. 5 ログラスのAIコーディングツール導入の歩み 12月 一部メンバーは Cursor等を利用 DevinのPoC開始

    1月 主に新規事業チーム でCursor/Devinを利 用 2月 エンジニア全員に Cursorを配布 3月 既存事業側でも Cursor利用が一気 に進む 時間軸 4月 既存事業チームでも Devinの導入開始 (20ドルプラン) Devin自体は12月からPoC開始 新規プロダクト開発チームでの活用想定
  4. © 2024 Loglass Inc. 6 ログラスのAIコーディングツール導入の歩み 12月 一部メンバーは Cursor等を利用 DevinのPoC開始

    1月 主に新規事業チーム でCursor/Devinを利 用 2月 エンジニア全員に Cursorを配布 3月 既存事業側でも Cursor利用が一気 に進む 時間軸 4月 既存事業チームでも Devinの導入開始 (20ドルプラン) 社としてはCursor普及がメイン コスト問題もあり、弊チームでの活用に専念
  5. © 2024 Loglass Inc. 7 ログラスのAIコーディングツール導入の歩み 12月 一部メンバーは Cursor等を利用 DevinのPoC開始

    1月 主に新規事業チーム でCursor/Devinを利 用 2月 エンジニア全員に Cursorを配布 3月 既存事業側でも Cursor利用が一気 に進む 時間軸 4月 既存事業チームでも Devinの導入開始 (20ドルプラン) Cursorの活用がひと段落 プランの変更も伴い、複数チームで導入が開始
  6. © 2024 Loglass Inc. 8 Devinの使い方(とある新規プロダクト開発チームの例) • 出退勤の前に複 数のToDoタスクを Devinに依頼

    • 追加指示も移動 中に行える • オフィス/自宅に到 着した時にはPR が作成されいてる • コンテキストスイッ チを避けるためのリ ファクタリング委任 • 集中を維持しながら 副次的タスクを進行 定型/小中規模のタスク タスクのオフロード 移動時間の効率活用 ドキュメント自動化 • 既存コードを元にし た新規エンドポイント の雛形作成 • 特定の修正の横展 開 • プロトタイプ・ライブラ リのサンプル実装 • 翻訳やコードベー スを元にした仕様 ドキュメントの自動 化
  7. © 2024 Loglass Inc. 13 ログラスでのDevin利用実態の分析 利用データを分析してみる • 対象: 約230セッション(主に4月利用)

    • 1ACU = 約2ドル (500ドル/250ACU)、Devin稼働1時間あたり約8ドル相当で計算 • 管理画面・手動でのアナログ分析 とある組織・チームでの例として参考程度に考えて頂けると
  8. © 2024 Loglass Inc. 14 ログラスでのDevin利用実態の分析 前提 • PRマージ率やACU効率の追求は現時点では行っておらず、数値自体の改善インセンティブ は強くない

    ◦ 弊社よりPRマージ率やACU効率が良い組織・事例はあるはず • フェーズや導入タイミングが異なる新規/既存リポジトリ両方のデータを含む
  9. © 2024 Loglass Inc. 16 ログラスでのDevin利用実態の分析〜PRリードタイム〜 高速にたくさんのPRマージができるようになるか? • PRマージまでのリードタイム: 中央値

    約3.4時間、平均値 約36.8時間 • なぜか? ◦ プロダクションコードにマージする前にはPRレビュー/QAをする ◦ エンジニアはDevinのお世話に専念してるわけではないため、PRレビュー待ちや微修正 でリードタイムが伸びる 品質保証・レビューをボトルネックにしない仕組みは必要
  10. © 2024 Loglass Inc. 17 ログラスでのDevin利用実態の分析〜PRリードタイム〜 (当たり前だが)機能実装系のタスクはPRリードタイム長め • 特にフロントエンドの修正が含むタスク ◦

    動作確認やデザイン整合性の確認で時間がかかる • バックエンドタスクは途中で引き取って、エンジニアが実装を完成させるパターンが散見され る • マイクロタスクは爆速 ◦ 細かな文言修正やUnit testで担保可能なリファクタや修正の横展開など
  11. © 2024 Loglass Inc. 18 ログラスでのDevin利用実態の分析〜PRマージ率〜 効率良くPRが作成できるか? • (同タスクで複数セッション作るなどの検 証タスクも含まれるので、実態はもう少し

    高い) • マージまで至ったのは約50%程度 • 4月からマージ率が高いのはドキュメント の自動生成を始めたから 初期の指示や方向づけを誤ると、自律的に間違った方向に進んでいく。 後の修正コストを考えると”やり直す”例も多く、PRマージ率はそこまで高くなっていない
  12. © 2024 Loglass Inc. 19 ログラスでのDevin利用実態の分析〜コスト・ROI〜 シンプルにタスク毎の幅がとても大きい • 0.13ACU (約$0.3〜)

    の軽微タスク (翻訳タスク、文言修正) から、36ACU超(約$73以上) の重量級タスク (MCPサーバーの実装) まで混在 区分 セッション数 ACU合計 一回あたり平均ACU 機能実装系 74 360 4.88 QA/テスト 84 205 2.44 ドキュメント 80 188.45 2.36 リサーチ 3 8.02 2.67
  13. © 2024 Loglass Inc. 20 ログラスでのDevin利用実態の分析〜コスト・ROI〜 実装系タスクを分解(分類難度の高い一部は除外) • バックエンド・APIがセッション数も多く、平均ACUも高い サブカテゴリ

    セッション数 ACU 合計 一回あたり平均 ACU 実装系内シェア Backend / API 35 215 ≈ 6.1 69 % Refactor / Optimization 14 55 ≈ 3.9 18 % Build / CI / Tooling 10 20 ≈ 2.0 6 % Frontend / UI 7 23 ≈ 3.3 7 %
  14. © 2024 Loglass Inc. 21 ログラスでのDevin利用実態の分析〜コスト・ROI〜 実装系タスクを分解(分類難度の高い一部は除外) • バックエンド・APIがセッション数も多く、平均ACUも高い サブカテゴリ

    セッション数 ACU 合計 一回あたり平均 ACU 実装系内シェア Backend / API 35 215 ≈ 6.1 69 % Refactor / Optimization 14 55 ≈ 3.9 18 % Build / CI / Tooling 10 20 ≈ 2.0 6 % Frontend / UI 7 23 ≈ 3.3 7 % フロントエンドが少ない理由は、 デザインの再現確認などのコストが高いため
  15. © 2024 Loglass Inc. 22 ログラスでのDevin利用実態の分析〜コスト・ROI〜 実装系タスクを分解(分類難度の高い一部は除外) • バックエンド・APIがセッション数も多く、平均ACUも高い サブカテゴリ

    セッション数 ACU 合計 一回あたり平均 ACU 実装系内シェア Backend / API 35 215 ≈ 6.1 69 % Refactor / Optimization 14 55 ≈ 3.9 18 % Build / CI / Tooling 10 20 ≈ 2.0 6 % Frontend / UI 7 23 ≈ 3.3 7 % フロントエンドよりは Unit test・PRレビューで確認しやすいため?
  16. © 2024 Loglass Inc. 23 ログラスでのDevin利用実態の分析〜コスト・ROI〜 実装系タスクの“上位10%”で消費ACUの4割近くを占める • バックエンド実装が上位。エンドポイント実装など比較的コード量が多くなる傾向 •

    上手くいかないタスクは本当に上手くいかない ◦ = ACUが嵩む • ACUが嵩んだタスクの例 ◦ MCPサーバーのサンプル実装: 36ACU ◦ エンドポイントの丸ごと実装: 18ACU
  17. © 2024 Loglass Inc. 24 ログラスでのDevin利用実態の分析〜タスク種類別パフォーマンス〜 Devinは安い? 高い? タスク次第! 平均ACU高め、PR

    マージ成功率も低め 既存コードの規約やク オリティ調整でコストが 嵩みがち (例: エンドポイント作成, 機能改修) 平均2.5 ACU程度 社内向けの仕様ドキュメ ント等の自動化が行える のであれば期待大 (例: ドキュメント更新, リ リースノート作成) 最もACUのばらつきが 大きかった コード解析は比較的高 めだったが、今なら Devin Searchも (例: ライブラリ実装調 査, コード解析) Knowledge設定やCI設 定などは比較的低ACU で安定 特に新規リポジトリ側で の利用は多かった 機能実装系 ドキュメント系 調査/サンプル実装系 環境整備/運用系
  18. © 2024 Loglass Inc. 25 ログラスでのDevin利用実態の分析〜コスト・ROI〜 ACU消費から考えるコスパの良いDevinの使い方 マイクロタスクのオフロード 手元でブランチ切り替えて..などの コンテキストスイッチ削減やレ

    ビューコストを考えると👌 例 • 翻訳/文言変更: 約0.2ACU • リリースノート作成 (約1ACU • 仕様ドキュメント: 約5ACU Playbookやknowledgeの整備で クオリティのコントロールは可能 総コスト (ACU + レビュー修正時 間) での考慮が必要だが、この種 のタスクが一定オフロードできる のは嬉しい 例 • 簡単な機能追加: 2~6ACU • Unitテスト作成 2~10ACU ドキュメントやナレッジ整備が完了 していない and 試行錯誤の繰り 返しが生まれるタスクは当然ACU は嵩みがち 加えて、結果的にマージに至らな いケースが比較的多い 例 • MCP Server実装: 36ACU 👌マイクロタスク 👌定型的な中規模タスク 🤔試験的な実装タスク
  19. © 2024 Loglass Inc. 26 ログラスでのDevin利用実態の分析〜コスト・ROI〜 ACU消費から考えるコスパの良いDevinの使い方 マイクロタスクのオフロード 手元でブランチ切り替えて..などの コンテキストスイッチ削減やレ

    ビューコストを考えると👌 例 • 翻訳/文言変更: 約0.2ACU • リリースノート作成 (約1ACU • 仕様ドキュメント: 約5ACU Playbookやknowledgeの整備で クオリティのコントロールは可能 総コスト (ACU + レビュー修正時 間) での考慮が必要だが、この種 のタスクが一定オフロードできる のは嬉しい 例 • 簡単な機能追加: 2~6ACU • Unitテスト作成 2~10ACU ドキュメントやナレッジ整備が完了 していない and 試行錯誤の繰り 返しが生まれるタスクは当然ACU は嵩みがち 加えて、結果的にマージに至らな いケースが比較的多い 例 • MCP Server実装: 36ACU 👌マイクロタスク 👌定型的な中規模タスク 🤔試験的な実装タスク とはいえ、複数ライブラリのPoC・サンプル実装を 一気に捌くのは便利 外部サービス・APIを繋げる際のサンプル実装なども
  20. © 2024 Loglass Inc. 27 ログラスでのDevin利用実態の分析〜コスト・ROI〜 所感 • マージまでの「総コスト(レビュー等含む)」でROIや適したタスクを考える •

    マイクロタスクのオフロードや複数パターン・ライブラリのサンプリ実装などは便利 ◦ コンテキストスイッチ削減や煩雑さからの解放価値は大きい • 新規 or 既存リポジトリのどちらからPoC/導入を始めるか ◦ 既存リポジトリの方が消費ACUの平均は高かった ◦ knowledgeを育てる経験を積むなら既存リポジトリの方が必然性は高い
  21. © 2024 Loglass Inc. 31 Devinナレッジのリアル Knowledgeの管理と他AIツールとのダブルメンテ問題 • Cursor Rulesで表現したいコンテキストは基本的には被りがち

    ◦ e.g. 知識・手順・規約 • 全て自分たちでDevin用に整備し直すのは手間 • Cursor Rulesと比べるとまだ柔軟性は低い ◦ フォルダ機能やIs Proceduralフラグなども出てきたので、今後に期待
  22. © 2024 Loglass Inc. 33 Devinのチーム運用のリアル 組織で使う上での運用ルールはCursorよりは困りそう..? ユーザー毎の課金体系ではない 費用負担先が異なる部署・チーム が混在する時にどうするのか...?

    ACU消費の分析も現状の管理機 能では手間 Cursor RulesとDevin Knowledgeのダブルメンテナンス をどうするか? モノレポ and 担当チーム毎に規 約等が異なる場合のknowledge のメンテナンスや競合をどう回避 するか? 🤔複数チームでの運用 🤔コンテキストの保守 🤔大規模コードベースでの運用 そこまで大規模な開発組織 and 展開ではないので、より困るのはこれから・・
  23. © 2024 Loglass Inc. 36 まとめ • Devinの利用履歴を元にした傾向、ナレッジ運用などについて話した • Cursorとの並行利用は、主にknowledge周りの運用面での難しさはある

    • とはいえ、Cursorとはまた違った自動化・タスクオフロードの体験が作れるので、Devinの可 能性は大いに感じる ◦ ただ、Cursorがリモート環境で動作できるようになったので... • 新規or既存リポジトリ等、各組織の環境によっても適したタスク・完了しやすいタスクは異なる 可能性はある • 結局は自分たちで使い倒してみるしかない