supateam - DevOpsDaysTokyo 2026 投影資料

AIに任せてみたら、開発はこう変わった ― 実践プラクティスとその効果の測り方 DevOpsDays Tokyo 2026 • 2026.04.14 1
/ 32

ABOUT THE COMPANY アイザック株式会社 aisaac inc. 2015 設立 120名社員数
85億円売上代表: 田中和希（エンジニア出身、 Rubyコミッター） 10を超える事業群、ほぼ全てにソフトウェアが関わる多くの事業でAIエージェントを率先して活用だから supateam が生まれた ― AI時代の開発組織を再発明する ©supateam 1 / 32

SPEAKER 若月寛明わかつきひろあき supateam 事業責任者 2014 高校時代からソフトウェア開発 2020
株式会社CIVIQ創業 2023 複数社で技術顧問 2025 AI系サービス事業売却 → アイザックへ ©supateam 1 / 32

今日の流れ STEP 1 AIで開発はどうなったのか海外レポート / データから見えてきた現実 STEP 2 AIに任せる自動化プラクティス
レビュー・障害対応・テストの実践例 STEP 3 効果の測り方とその先測定の自動化・ハーネスエンジニアリング ©supateam 1 / 32

Q1 AIに任せていることは？複数選択可 30人が回答中要件定義 / コーディングは長らくやれてなくて… コメント: こんにちは！コーディング
（機能実装・バグ修正） 27 コードレビュー 19 テスト作成 15 インシデント調査・障害対応 13 ドキュメント・PR作成 23 プランニング・リサーチ 17 コード補完 20 ©supateam 1 / 32

STEP 1 AIで開発はどうなったのか海外レポート / データから見えてきた現実 1 / 32

「補完」から「委任」へ ― AIに任せる度合いが加速 AI導入率 90% 85,350名 /
435社 AI作成コード 22% 人間の大幅な修正なしにマージ出典: GetDX Q4 2025 Impact Report AIエージェント利用率 22% 現在コーディングエージェントを利用 12ヶ月以内に導入予定 66% AI導入は当たり前 → エージェントへ焦点が移行出典: JetBrains AI Pulse 2026 アイザック社内ではAIエージェントの利用率ほぼ100% ― 全エンジニアがClaude Code / Cursorを日常的に使用「AIでコードを書く」から「AIエージェントにタスクを委任する」へ ©supateam 1 / 32

AIで開発はどうなったのか AI導入後、スループットは上がった。しかしその裏で何が起きているかマージされたPR数 +98% PRレビュー時間 +91% 平均PRサイズ +154%
バグ数/開発者 +9% DORAでも不安定性の増加が報告 supateamの実データでも同じ傾向を複数の日本企業で観測。スループットの上昇に対して、レビュー負荷と変更障害率の増大がセットで起きている。出典: Faros AI 2025 / GetDX Q4 2025 Impact Report / supateam分析データ ©supateam 1 / 32

ハーネスエンジニアリング = 新しいOps OpenAI (2026/2): Agent = Model + Harness。
語源は馬具 ― 強力だが行き先を知らない馬(AI)を正しい方向に導く仕組み。 Prompt Eng. 指示を書く Context Eng. 文脈を与える Harness Eng. 環境を設計する OpenAI Codexの実績 Codexチームは100万行超のプロダクションコードを、人間が1行もコードを書かずに構築パラダイムシフトエンジニアの仕事が「コードを書く」から「AIがコードを書く環境を設計する」へ出典: OpenAI "Harness engineering" (2026/2) / Martin Fowler (2026/4) ©supateam 1 / 32

人間がフォーカスすること、 AIに任せること 2026年、"反復作業"にコードを書くこと自体が含まれるように。では人間は何にフォーカスすべきか? 人間がフォーカスする 1 なぜ作るか（ビジネス文脈）何を作るかの判断・優先順位・プロダクト戦略 2
品質の最終検証高リスク変更のレビュー・リリース判断・障害時の意思決定 3 AIが働く環境の設計ルール設計・フィードバックループ・自動化の成功率計測 AIに任せる（自動化する） 1 バグやインシデント対応ログ解析・変更履歴の横断検索・原因候補の提示 2 反復的なレビュー低リスクPRの自動承認・同じ指摘の検出と適用 3 ドキュメントの継続的メンテナンスコーディングルールの更新・テスト生成・規約の反映反復作業はコンピュータに任せて人間は問題解決に当たる ― 変更の追加費用の削減に有効な方策の1つが「リグレッションテストやソフトウェアのデプロイなど時間のかかる反復作業の簡素化、自動化に投資すること」である ― 『Accelerate』第4章 p.53 “ ©supateam 1 / 32

Q2 AI導入後、一番感じている課題は何ですか? 30人が回答中コメント: こんにちは！レビュー負荷の増加 17 バグ
/ 手戻りの増加 7 成果に紐づかないアウトプットの増加 12 メンバーごとのAI習熟度の差 13 ©supateam 1 / 32

STEP 2 AIに任せる自動化プラクティス課題(データ) → プラクティス → 狙う指標 1
/ 32

課題と自動化プラクティス課題 1 レビュー負荷の爆増 Faros AI 2025ではレビュー時間+91%。複数組織の実データでもレビューラウンド数が2〜5倍に増加。 ①
レビュー知見の継続的なルール化レビュー指摘を自動マイニングしガイドラインに還元再発率 ② AIレビュワーによる自動マージオーナーシップの分類で低リスクPRはAIレビューのみでマージ自動マージ率課題 2 安定性の低下・バグの増加品質が低いコードが混入し障害が増加。 Uplevel (2024)ではCopilot 使用時にバグ+41%。テストが追いつかず品質保証に空白が生まれている。 ③ インシデント検知と調査の自動化障害調査をAIに任せてMTTRを圧縮 MTTR ④ テストカバレッジの自動改善 AIエージェントが自律的にテスト生成変更障害率 ©supateam 1 / 32

PRACTICE 1 レビュー知見の継続的なルール化で同じ指摘をゼロにする ©supateam 1 / 32

① プラクティスレビューコメントを週次マイニングし、ガイドラインPRを自動生成自動生成されるPR本文（実例）なぜ人間が採否を判断するのかレビューコメントには文脈依存の情報が含まれるリリース優先度による例外的な許容トレードオフの判断は機械化できない
「AIが候補を出す。人間が規範として残すか決める。」週次cron レビューコメント収集 AIが候補抽出パターン分析 PR自動作成チェックボックス付き人間が採否判断 ☐ 除外 / 採用ドキュメント反映自動sync ©supateam 1 / 32

① Human-in-the-loop PRのチェックボックスをポチるだけでガイドラインが自動反映される supateam で実際に実行 17件のPR → 40件超のコメント →
12件の候補同じ指摘の繰り返し: 3パターン発見空配列ガード漏れ … PR #2299, #2302 TZ不整合 … PR #2301, #2273 aria-label未設定 … PR #2279, #2273 翌週、同様の指摘はゼロに .claude/rules/ に反映 → AI が自動適用 ©supateam 1 / 32

PRACTICE 2 AIレビュワーによる自動マージ ©supateam 1 / 32

② プラクティスカウシェ: PRの83%をAIレビューのみで自動マージカウシェさんの事例における工夫 ✔️ 3つのペルソナで違う観点を並行レビュー ✔️ 人間の介入が必要なDB・インフラ・認証・決済などのレビューは任せない ✔️
レビューに使うルールを常に最新化前提: バグが出ても迅速にロールバックや修正デプロイで対応できる / テストやDesign Docが十分に用意されている出典: カウシェ Tech Blog (2026年4月) PR作成開発者 or AI オーナーシップの分類 LLMでリスク判定低リスク 83% AI自動マージ高リスク 17% 人間レビュー必須 ©supateam 1 / 32

② まとめ AIレビューの質は「何を見ないか」で決まる KAUCHE 却下すべき理由がないならApprove マージ停止は重大な問題のみに限定改善提案はブロックせず別PRで対応主観的Rejectによるノイズ化を防止
UBER uREVIEW Signal-to-Noise Ratioを最大化する週65,000 diff、 90%以上をAIがカバーコメントフィルタリングで誤検知を除去コメント対応率65%、有用性評価75% Uber uReviewでは、 AIレビューコメントが実際に対応されたかを分析し、人間のコメントよりもAIコメントの方が高い対応率であることを検証している「何でも指摘するAI」ではなく「本当に止めるべきものだけ止めるAI」を目指す ※ 弊社の計測でも、信頼されているレビューエージェントほどコメント数は少ないが対応率が高いという傾向が出ています出典: カウシェ Tech Blog (2026) / Uber Engineering Blog "uReview" (2025) ©supateam 1 / 32

PRACTICE 3 インシデント検知と調査の自動化エージェント ©supateam 1 / 32

③ 障害対応が遅い障害対応の大半は「調査」であって「判断」ではない障害時のエンジニアの行動: ログをgrep 直近の変更を洗い出す
関連PRを読む Slackを遡るこれは問題解決ではなく情報収集。判断は一瞬で終わるのに、前段階で時間を溶かしている。 MTTRの内訳検知 → 原因特定（大半）判断 → 修正情報収集こそAIが得意な領域 ©supateam 1 / 32

③ 実装 Cloud Monitoringの通知から始める自動調査エージェント構成 Cloud Monitoring AlloyDB CPU高負荷 →
Cloud Run Claude Agent SDK → Claude Code CLI gcloud / grep / git → 原因特定・修正コミット作成精度を上げたのは「何を最初に見るか」の順序 ✕ ERRORログを先に取得 ERRORログ → Query Insights → コード追跡大量のログに引きずられて原因を誤認例: deadlockに飛びついたが実際はCPU負荷と無関係 ✓ Query Insightsを先に取得 Query Insights → コード追跡 → ERRORログボトルネッククエリを起点に追跡するためノイズに惑わされず原因特定できる ©supateam 1 / 32

③ 検証結果過去のインシデント3件で検証日時 CPU ピーク原因結果実行時間 20XX年
X月 ~120% CTE + 6段LEFT JOIN のタイムアウト原因特定成功 ~4分 20XX年 X月 ~100% 同上（同一クエリ）原因特定成功 ~5分 20XX年 X月 ~65% 特定組織のレビューコメント取得負荷増大原因特定成功 ~3分手動での調査 30分以上 → エージェント自動調査 5分以内 6x 高速化 ©supateam 1 / 32

④ テストが薄くて壊れる期待: AIがテストを書き続けてくれる AIがコードを書くなら、テストもAIに書かせればいい。カバレッジを自動で上げ続けてくれるはず — そう期待した。期待していたこと
AIにテスト生成を任せればカバレッジは自動で上がり続ける「人間はレビューするだけ」の世界 ≠ 実際に起きたこと数は増えるがレビューが追いつかない AIの生成速度が人間の確認能力を超える差分確認の品質判断は開発経験に基づく審美眼が必要だった ©supateam 1 / 32

④ 事例: ZOZO ZOZOさんの事例テスト数 324 → 509 +57% カバレッジ
4.72% → 9.25% 約2倍直面した課題 1. 生成速度 > レビュー速度 AIの出力が人間のレビュー能力を超えた 2. コンテキスト属人化入出力の確認だけではレビューとして不十分 3. PR粒度の問題目視確認の認知負荷が増大対策サマリ自動生成・PR粒度を100行に制限・差分確認のプロセス化出典: ZOZO TECH BLOG (2026年3月) ©supateam 1 / 32

④ 教訓テストは「委任」ではなく「協業」の領域 ZOZOの核心的な気づき 1 生成速度がレビューを圧倒
AIの出力速度が人間のレビュー能力を超えてしまった 2 差分確認は開発経験に基づく審美眼品質を判断できるのは人間だけ。この判断を省略できない 3 レビュー設計こそが本質サマリ自動生成・PR粒度制限・目視確認のプロセス化で対応理想的な役割分担 AI テスト設計書 + テストコード生成 + サマリ出力 AI 認知負荷を超えない粒度への分割人間コードの差分確認と品質判断 ©supateam 1 / 32

Q3 明日から試したいプラクティスは? 30人が回答中コメント: こんにちは！インシデント検知の自動化 13 テストカバレッジの自動改善 9
レビュー → ドキュメント自動更新 14 AIレビュー+自動マージ 10 自動化の成功率の計測 10 ©supateam 1 / 32

STEP 3 プラクティスの効果を計測する数字の変化を追い続けることで改善サイクルが回る 1 / 32

プラクティスの効果を計測するプラクティス見るべき指標何がわかるか ① ルール化手戻りPR率同じ種類のバグ修正・hotfixが減っているか ② AIレビュー
AIレビュー対応率 AIコメントが実際に対応された割合 (uReview: 65%) 人間レビューなしマージ率 AIレビューのみでマージされた割合 (カウシェ: 83%) レビューコメント数 AI導入で人間のレビュー負荷が減っているかレビュー開始時間 AI即時レビューでレビュー待ちが短縮されたか ③ インシデント検知 MTTR 障害検知から復旧までの時間が短縮されたか自動検知率アラートのうちAIが先に検知した割合 ④ テスト改善変更障害率デプロイ起因の障害が減っているかテストカバレッジ AI生成テストでカバレッジが上がっているか導入して終わりにしない。数字の変化を追い続けることで改善サイクルが回る ©supateam 1 / 32

ありがとうございましたトライアルクーポンアンケート全問回答で配布ロゴシールブースにてお渡しよかったらぜひブースにもお立ち寄りください 1 / 32

supateam - DevOpsDaysTokyo 2026 投影資料

supateam - DevOpsDaysTokyo 2026 投影資料

aisaac inc. PRO

More Decks by aisaac inc.

Other Decks in Business

Featured

Transcript

AIに任せてみたら、開発はこう変わった ― 実践プラクティスとその効果の測り方 DevOpsDays Tokyo 2026 • 2026.04.14 1

ABOUT THE COMPANY アイザック株式会社 aisaac inc. 2015 設立 120名社員数

SPEAKER 若月寛明わかつきひろあき supateam 事業責任者 2014 高校時代からソフトウェア開発 2020

今日の流れ STEP 1 AIで開発はどうなったのか海外レポート / データから見えてきた現実 STEP 2 AIに任せる自動化プラクティス

Q1 AIに任せていることは？複数選択可 30人が回答中要件定義 / コーディングは長らくやれてなくて… コメント: こんにちは！コーディング

STEP 1 AIで開発はどうなったのか海外レポート / データから見えてきた現実 1 / 32

「補完」から「委任」へ ― AIに任せる度合いが加速 AI導入率 90% 85,350名 /

AIで開発はどうなったのか AI導入後、スループットは上がった。しかしその裏で何が起きているかマージされたPR数 +98% PRレビュー時間 +91% 平均PRサイズ +154%

ハーネスエンジニアリング = 新しいOps OpenAI (2026/2): Agent = Model + Harness。

Q2 AI導入後、一番感じている課題は何ですか? 30人が回答中コメント: こんにちは！レビュー負荷の増加 17 バグ

STEP 2 AIに任せる自動化プラクティス課題(データ) → プラクティス → 狙う指標 1

課題と自動化プラクティス課題 1 レビュー負荷の爆増 Faros AI 2025ではレビュー時間+91%。複数組織の実データでもレビューラウンド数が2〜5倍に増加。 ①

PRACTICE 1 レビュー知見の継続的なルール化で同じ指摘をゼロにする ©supateam 1 / 32

① Human-in-the-loop PRのチェックボックスをポチるだけでガイドラインが自動反映される supateam で実際に実行 17件のPR → 40件超のコメント →

PRACTICE 2 AIレビュワーによる自動マージ ©supateam 1 / 32

② まとめ AIレビューの質は「何を見ないか」で決まる KAUCHE 却下すべき理由がないならApprove マージ停止は重大な問題のみに限定改善提案はブロックせず別PRで対応主観的Rejectによるノイズ化を防止

PRACTICE 3 インシデント検知と調査の自動化エージェント ©supateam 1 / 32

③ 障害対応が遅い障害対応の大半は「調査」であって「判断」ではない障害時のエンジニアの行動: ログをgrep 直近の変更を洗い出す

③ 実装 Cloud Monitoringの通知から始める自動調査エージェント構成 Cloud Monitoring AlloyDB CPU高負荷 →

③ 検証結果過去のインシデント3件で検証日時 CPU ピーク原因結果実行時間 20XX年

PRACTICE 4 — LESSONS LEARNED テストカバレッジの自動改善 — AIに任せきれなかったこと ©supateam 1

④ テストが薄くて壊れる期待: AIがテストを書き続けてくれる AIがコードを書くなら、テストもAIに書かせればいい。カバレッジを自動で上げ続けてくれるはず — そう期待した。期待していたこと

④ 事例: ZOZO ZOZOさんの事例テスト数 324 → 509 +57% カバレッジ

④ 教訓テストは「委任」ではなく「協業」の領域 ZOZOの核心的な気づき 1 生成速度がレビューを圧倒

Q3 明日から試したいプラクティスは? 30人が回答中コメント: こんにちは！インシデント検知の自動化 13 テストカバレッジの自動改善 9

STEP 3 プラクティスの効果を計測する数字の変化を追い続けることで改善サイクルが回る 1 / 32

プラクティスの効果を計測するプラクティス見るべき指標何がわかるか ① ルール化手戻りPR率同じ種類のバグ修正・hotfixが減っているか ② AIレビュー

それ、 supateamで見れます supateam MCPで対話的・横断的にデータの分析が可能 ©supateam 1 / 32

ありがとうございましたトライアルクーポンアンケート全問回答で配布ロゴシールブースにてお渡しよかったらぜひブースにもお立ち寄りください 1 / 32