Upgrade to Pro — share decks privately, control downloads, hide ads and more …

supateam - DevOpsDaysTokyo 2026 投影資料

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

supateam - DevOpsDaysTokyo 2026 投影資料

2026/4/14の「DevOpsDays Tokyo 2026」内で発表したsupateamのセッション「AIに任せてみたら、開発はこう変わった ― 実践プラクティスとその効果の測り方」の投影資料です。

Avatar for aisaac inc.

aisaac inc. PRO

April 14, 2026

More Decks by aisaac inc.

Other Decks in Business

Transcript

  1. ABOUT THE COMPANY アイザック株式会社 aisaac inc. 2015 設立 120名 社員数

    85億円 売上 代表: 田中 和希 (エンジニア出身、 Rubyコミッター) 10を超える事業群、 ほぼ全てにソフトウェアが関わる 多くの事業でAIエージェントを率先して活用 だから supateam が生まれた ― AI時代の開発組織を再発明する ©supateam 1 / 32
  2. SPEAKER 若月 寛明 わかつき ひろあき supateam 事業責任者 2014 高校時代からソフトウェア開発 2020

    株式会社CIVIQ創業 2023 複数社で技術顧問 2025 AI系サービス事業売却 → アイザックへ ©supateam 1 / 32
  3. 今日の流れ STEP 1 AIで開発はどうなったのか 海外レポート / データから見えてきた現実 STEP 2 AIに任せる自動化プラクティス

    レビュー・障害対応・テストの実践例 STEP 3 効果の測り方とその先 測定の自動化・ハーネスエンジニアリング ©supateam 1 / 32
  4. Q1 AIに任せていることは? 複数選択可 30人が回答中 要件定義 / コーディングは長らくやれてなくて… コメント: こんにちは! コーディング

    (機能実装・バグ修正) 27 コードレビュー 19 テスト作成 15 インシデント調査・障害対応 13 ドキュメント・PR作成 23 プランニング・リサーチ 17 コード補完 20 ©supateam 1 / 32
  5. 「補完」 から 「委任」 へ ― AIに任せる度合いが加速 AI導入率 90% 85,350名 /

    435社 AI作成コード 22% 人間の大幅な修正なしにマージ 出典: GetDX Q4 2025 Impact Report AIエージェント利用率 22% 現在コーディングエージェントを利用 12ヶ月以内に導入予定 66% AI導入は当たり前 → エージェントへ焦点が移行 出典: JetBrains AI Pulse 2026 アイザック社内ではAIエージェントの利用率ほぼ100% ― 全エンジニアがClaude Code / Cursorを日常的に使用 「AIでコードを書く」 から 「AIエージェントにタスクを委任する」 へ ©supateam 1 / 32
  6. AIで開発はどうなったのか AI導入後、 スループットは上がった。 しかしその裏で何が起きているか マージされたPR数 +98% PRレビュー時間 +91% 平均PRサイズ +154%

    バグ数/開発者 +9% DORAでも不安定性の増加が報告 supateamの実データでも同じ傾向を複数の日本企業で観測。 スループットの上昇に対して、 レビュー負荷と変更障害率の増大がセットで起 きている。 出典: Faros AI 2025 / GetDX Q4 2025 Impact Report / supateam分析データ ©supateam 1 / 32
  7. ハーネスエンジニアリング = 新しいOps OpenAI (2026/2): Agent = Model + Harness。

    語源は馬具 ― 強力だが行き先を知らない馬(AI)を正しい方向に導く仕組み。 Prompt Eng. 指示を書く Context Eng. 文脈を与える Harness Eng. 環境を設計する OpenAI Codexの実績 Codexチームは100万行超のプロダクションコードを、 人間が1行もコー ドを書かずに構築 パラダイムシフト エンジニアの仕事が 「コードを書く」 から 「AIがコードを書く環境を設計する」 へ 出典: OpenAI "Harness engineering" (2026/2) / Martin Fowler (2026/4) ©supateam 1 / 32
  8. 人間がフォーカスすること、 AIに任せること 2026年、"反復作業"にコードを書くこと自体が含まれるように。 では人間は何にフォーカスすべきか? 人間がフォーカスする 1 なぜ作るか (ビジネス文脈) 何を作るかの判断・優先順位・プロダクト戦略 2

    品質の最終検証 高リスク変更のレビュー・リリース判断・障害時の意思決定 3 AIが働く環境の設計 ルール設計・フィードバックループ・自動化の成功率計測 AIに任せる (自動化する) 1 バグやインシデント対応 ログ解析・変更履歴の横断検索・原因候補の提示 2 反復的なレビュー 低リスクPRの自動承認・同じ指摘の検出と適用 3 ドキュメントの継続的メンテナンス コーディングルールの更新・テスト生成・規約の反映 反復作業はコンピュータに任せて人間は問題解決に当たる ― 変更の追加費用の削減に有効な方策の1つが「リグレッションテストやソフトウェアのデプロイなど時間のかかる反復作業の簡素化、自動化に投資すること」である ― 『Accelerate』 第4章 p.53 “ ©supateam 1 / 32
  9. Q2 AI導入後、 一番感じている 課題は何ですか? 30人が回答中 コメント: こんにちは! レビュー負荷の増加 17 バグ

    / 手戻りの増加 7 成果に紐づかないアウトプットの増加 12 メンバーごとのAI習熟度の差 13 ©supateam 1 / 32
  10. 課題と自動化プラクティス 課題 1 レビュー負荷の爆増 Faros AI 2025ではレビュー時間+91%。 複数組織の実データでもレビ ューラウンド数が2〜5倍に増加。 ①

    レビュー知見の継続的なルール化 レビュー指摘を自動マイニングしガイドラインに還元 再発率 ② AIレビュワーによる自動マージ オーナーシップの分類で低リスクPRはAIレビューのみでマージ 自動マージ率 課題 2 安定性の低下・バグの増加 品質が低いコードが混入し障害が増加。 Uplevel (2024)ではCopilot 使用時にバグ+41%。 テストが追いつかず品質保証に空白が生まれて いる。 ③ インシデント検知と調査の自動化 障害調査をAIに任せてMTTRを圧縮 MTTR ④ テストカバレッジの自動改善 AIエージェントが自律的にテスト生成 変更障害率 ©supateam 1 / 32
  11. ① プラクティス レビューコメントを週次マイニングし、 ガイドラインPRを自動生成 自動生成されるPR本文 (実例) なぜ人間が採否を判断するのか レビューコメントには文脈依存の情報が含まれる リリース優先度による例外的な許容 トレードオフの判断は機械化できない

    「AIが候補を出す。 人間が規範として残すか決める。」 週次cron レビューコメント収集 AIが候補抽出 パターン分析 PR自動作成 チェックボックス付き 人間が採否判断 ☐ 除外 / 採用 ドキュメント反映 自動sync ©supateam 1 / 32
  12. ① Human-in-the-loop PRのチェックボックスをポチるだけで ガイドラインが自動反映される supateam で実際に実行 17件のPR → 40件超のコメント →

    12件の候補 同じ指摘の繰り返し: 3パターン発見 空配列ガード漏れ … PR #2299, #2302 TZ不整合 … PR #2301, #2273 aria-label未設定 … PR #2279, #2273 翌週、 同様の指摘はゼロに .claude/rules/ に反映 → AI が自動適用 ©supateam 1 / 32
  13. ② プラクティス カウシェ: PRの83%をAIレビューのみで自動マージ カウシェさんの事例における工夫 ✔️ 3つのペルソナで違う観点を並行レビュー ✔️ 人間の介入が必要なDB・インフラ・認証・決済などのレビューは任せない ✔️

    レビューに使うルールを常に最新化 前提: バグが出ても迅速にロールバックや修正デプロイで対応できる / テストやDesign Docが十分に用意されている 出典: カウシェ Tech Blog (2026年4月) PR作成 開発者 or AI オーナーシップの分類 LLMでリスク判定 低リスク 83% AI自動マージ 高リスク 17% 人間レビュー必須 ©supateam 1 / 32
  14. ② まとめ AIレビューの質は 「何を見ないか」 で決まる KAUCHE 却下すべき理由がないならApprove マージ停止は重大な問題のみに限定 改善提案はブロックせず別PRで対応 主観的Rejectによるノイズ化を防止

    UBER uREVIEW Signal-to-Noise Ratioを最大化する 週65,000 diff、 90%以上をAIがカバー コメントフィルタリングで誤検知を除去 コメント対応率65%、 有用性評価75% Uber uReviewでは、 AIレビューコメントが実際に対応されたかを分析し、 人間のコメントよりもAIコメントの方が高い対応率であることを検証し ている 「何でも指摘するAI」 ではなく 「本当に止めるべきものだけ止めるAI」 を目指す ※ 弊社の計測でも、 信頼されているレビューエージェントほどコメント数は少ないが対応率が高いという傾向が出ています 出典: カウシェ Tech Blog (2026) / Uber Engineering Blog "uReview" (2025) ©supateam 1 / 32
  15. ③ 障害対応が遅い 障害対応の大半は 「調査」 であって 「判断」 ではない 障害時のエンジニアの行動: ログをgrep 直近の変更を洗い出す

    関連PRを読む Slackを遡る これは問題解決ではなく情報収集。 判断は一瞬で終わるのに、 前段階で時間を溶かしている。 MTTRの内訳 検知 → 原因特定 (大半) 判断 → 修正 情報収集こそAIが得意な領域 ©supateam 1 / 32
  16. ③ 実装 Cloud Monitoringの通知から始める自動調査 エージェント構成 Cloud Monitoring AlloyDB CPU高負荷 →

    Cloud Run Claude Agent SDK → Claude Code CLI gcloud / grep / git → 原因特定・修正 コミット作成 精度を上げたのは 「何を最初に見るか」 の順序 ✕ ERRORログを先に取得 ERRORログ → Query Insights → コード追跡 大量のログに引きずられて原因を誤認 例: deadlockに飛びついたが実際はCPU負荷と無関係 ✓ Query Insightsを先に取得 Query Insights → コード追跡 → ERRORログ ボトルネッククエリを起点に追跡するため ノイズに惑わされず原因特定できる ©supateam 1 / 32
  17. ③ 検証結果 過去のインシデント3件で検証 日時 CPU ピーク 原因 結果 実行時間 20XX年

    X月 ~120% CTE + 6段LEFT JOIN のタイムアウト 原因特定成功 ~4分 20XX年 X月 ~100% 同上 (同一クエリ) 原因特定成功 ~5分 20XX年 X月 ~65% 特定組織のレビューコメント取得負荷増大 原因特定成功 ~3分 手動での調査 30分以上 → エージェント自動調査 5分以内 6x 高速化 ©supateam 1 / 32
  18. ④ テストが薄くて壊れる 期待: AIがテストを書き続けてくれる AIがコードを書くなら、 テストもAIに書かせればいい。 カバレッジを自動で上げ続けてくれるはず — そう期待した。 期待していたこと

    AIにテスト生成を任せれば カバレッジは自動で上がり続ける 「人間はレビューするだけ」 の世界 ≠ 実際に起きたこと 数は増えるがレビューが追いつかない AIの生成速度が人間の確認能力を超える 差分確認の品質判断は開発経験に基づく審美眼が必要だった ©supateam 1 / 32
  19. ④ 事例: ZOZO ZOZOさんの事例 テスト数 324 → 509 +57% カバレッジ

    4.72% → 9.25% 約2倍 直面した課題 1. 生成速度 > レビュー速度 AIの出力が人間のレビュー能力を超えた 2. コンテキスト属人化 入出力の確認だけではレビューとして不十分 3. PR粒度の問題 目視確認の認知負荷が増大 対策 サマリ自動生成・PR粒度を100行に制限・差分確認のプロセス化 出典: ZOZO TECH BLOG (2026年3月) ©supateam 1 / 32
  20. ④ 教訓 テストは 「委任」 ではなく 「協業」 の領域 ZOZOの核心的な気づき 1 生成速度がレビューを圧倒

    AIの出力速度が人間のレビュー能力を超えてしまった 2 差分確認は開発経験に基づく審美眼 品質を判断できるのは人間だけ。 この判断を省略できない 3 レビュー設計こそが本質 サマリ自動生成・PR粒度制限・目視確認のプロセス化で対応 理想的な役割分担 AI テスト設計書 + テストコード生成 + サマリ出力 AI 認知負荷を超えない粒度への分割 人間 コードの差分確認と品質判断 ©supateam 1 / 32
  21. Q3 明日から試したい プラクティスは? 30人が回答中 コメント: こんにちは! インシデント検知の自動化 13 テストカバレッジの自動改善 9

    レビュー → ドキュメント自動更新 14 AIレビュー+自動マージ 10 自動化の成功率の計測 10 ©supateam 1 / 32
  22. プラクティスの効果を計測する プラクティス 見るべき指標 何がわかるか ① ルール化 手戻りPR率 同じ種類のバグ修正・hotfixが減っているか ② AIレビュー

    AIレビュー対応率 AIコメントが実際に対応された割合 (uReview: 65%) 人間レビューなしマージ率 AIレビューのみでマージされた割合 (カウシェ: 83%) レビューコメント数 AI導入で人間のレビュー負荷が減っているか レビュー開始時間 AI即時レビューでレビュー待ちが短縮されたか ③ インシデント検知 MTTR 障害検知から復旧までの時間が短縮されたか 自動検知率 アラートのうちAIが先に検知した割合 ④ テスト改善 変更障害率 デプロイ起因の障害が減っているか テストカバレッジ AI生成テストでカバレッジが上がっているか 導入して終わりにしない。 数字の変化を追い続けることで改善サイクルが回る ©supateam 1 / 32