AIで開発はどれくらい加速したのか？AIエージェントによるコード生成を、現場の評価と研究開発の評価の両面からdeep diveしてみる

1 AIで開発はどれくらい加速したのか？ AIエージェントによるコード⽣成を、現場の評価と研究開発の評価の両⾯からdeep diveしてみるどすこい (doskoi64) GMOペパボ株式会社 EC事業部事業開発チーム Burikaigi 2026
Day 1 (2026.01.09) マス #burikaigi_m

2 ⾃⼰紹介 EC事業部 ECグループ事業開発チームどすこい Daisuke Takeda ⾼校(⽚⼭学園)まで新湊⼤橋のらへんに住んでいました！地元で登壇嬉しい🙌🙌 東京ではECサイトの検索基盤/ログ基盤の
改善を⾊々しています。純粋にAIが好きで、⼤学で研究してたり、⾊々調べたりしていました。 Webエンジニア X: @doskoi64

3 私たちは「⼈類のアウトプットを増やす」ことをミッションとし、インターネットやテクノロジーの⼒で情報発信のハードルを下げる⽀援をしています。

4 #burikaigi_m #burikaigi Xで感想/コメントのツイートお願いします！

5 AI使ったコーディングしてますか？ 5

6 AIのコード⽣成の精度どうですか？⼿を挙げてください！🖐 6 😎 🙂 🤔 😡

7 AIのコード⽣成の精度どうですか？ 7 😎 🙂 🤔 😡 中　　多　　中　少
予想はこうです！

8 本⽇のテーマ 8

9 AIで開発はどれくらい加速したのか?

10 AIで開発はどれくらい加速したのか?

実感としてはかなり速くなった... 気がする！けど、ちゃんとは⾔えてないどれくらい加速したのか？ 11

けど、実際に速さはありそう...！？ 12 Jaana Dogan (@rakyll) 2026-01-03 Google プリンシパルエンジニア

定量的にはどうなんだろう • 現場：使ってみて良くなった • 研究：ベンチマークで〇〇％向上これって具体的に何がどうなっているんだろう？ AIエージェントの評価 13

AIエージェントのコード⽣成の定量評価について深掘り • 現場ではどこのデータをみているのか • ⼀⽅、研究ではどのように評価しているのか • 研究での評価と現場での評価の違いがどうしてあるのか • これを踏まえてどのように考えていくのか今⽇のお話では...
14

15 業務や趣味開発などで試してみることで得られる定性評価&試⾏錯誤も、とても重要です！お話ししませんが、重要なことジュニア/シニア問わず、皆さんが使ってみた⼿応え感や考え⽅をわいわい聞くことの⽅をむしろ僕は⼤事だと思っています！アウトプットしましょう！

Table of contents • ⾃⼰紹介と導⼊ • 近年のAIエージェントのあゆみ • 現場でのAIエージェント開発の評価 •
⽣成AIによる単純なコード⽣成のベンチマーク: HumanEval • HumanEval-XLを実際触ってみる • 現実世界のソフトウェア開発の動きに近いベンチマーク: SWE-bench • 研究との現場の違い • これを踏まえたAI時代の動き 16

18 近年のAIエージェントのあゆみ

19 2022 ~ 2023

20 2024 ~

21 完全に雰囲気に⾝を任せて、コードの詳細に気を払わず、⾃然⾔語だけで指⽰をしてコーディングする Andrej Karpathy (X:@karpathy) 2025-02 OpenAIの創設メンバー Vibe
Codingとは

22 2025※イメージです

23 ⼈間とAIのドライバー席の交代

24 https://staﬀ.persol-xtech.co.jp/hatalabo/mono_engineer/568.html

25 『エンジニアに許された特別な時間の終わり』より (https://speakerdeck.com/watany/the-end-of-the-special-time-granted-to-engineers)

26 ⼈間が数⼗、数百⾏コードを1⽇で書くところ... AIを使えば1万⾏書くことができる圧倒的な量を誰でも書くことができる⼈間とAIのドライバー交代

つづきはこちら 27 https://speakerdeck.com/daisuketakeda/vibecodingshi-dai-noenziniaringu

29 現場での AIエージェント開発の評価

Four Keys 30 • DORA（DevOps Research and Assessment）が提唱する開発組織のパフォーマンスを測る4つの指標 •
デプロイ頻度, リードタイム, 変更障害率, サービス復元時間 • 4つの指標がどれも優れている組織をエリートとしている • ペパボではこれをチームごとに記録する基盤があります 2020-10-01 https://cloud.google.com/blog/ja/products/gcp/using-the-four-keys-to-measure-your-devops-performance

デプロイの頻度の変化 31 • Four Keys中でのデプロイの頻度の⼀例⽇付デプロイの頻度

デプロイの頻度の変化 32 AIエージェント導⼊で増えている⽇付デプロイの頻度

他のチームの例プロダクトやチームの状況でも変わってくる... 33 • 他1: 同様にデプロイの頻度が増えている。さらに2倍, 3倍となるようにアクションを⾏っている。 • 他2:
同じようなデプロイの頻度がみられなかった。そもそもPR作成の数が増えてなさそう。なので、PR作成数にフォーカスして再度測定。

34 10倍になる感覚があるけど活かしきれてないとのこと..

定性的には 35 • 調査、検証⽤実装を速く、並列でできるようになった。 • これまででは考えられない速度,リソースでリリースできたサービスもある。 • キャッチアップや、知らないコードベースに対する調査でも強み。
tech.pepabo.com

⼀⽅で... 36 • 冗⻑なコメントやドキュメントができたりする • コミットの粒度が⼤きくなったりしまう時がある • ライブラリなどを使わずに独⾃実装してします • 設計⽅針や他のコードを参考にしていないような実装に
なってしまうことがある etc...

グッドハートの法則 Goodhart's Law 37 • 数値だけを追い求めてハックみたいになってはいけない • ⽬指すべきは⽣産性の増加で、知りたいのは現状の⽣産性がどうだったのかと過去の⽣産性はどうだったのか •
例えば、デプロイの頻度に注⽬しすぎて、いままで⼀つの PRでマージしていたものを細かいPRマージにして数値を増やしても意味がない開発生産性測定のトレードオフ「グッドハートの法則」はもっと悲観的に捉えるべきだったFindy 開発⽣産性Conference2025 Kent Beck

これらをふまえて... 38 • ⼀⽅で、何もしないことよりも、アクションをすることで試⾏錯誤し続けることの⽅が重要 • 新しい技術やエージェントの機能、開発の⽅法や開発フローの整備を⾏って、数値がこれまでからどのように変わったのかを⾒てフィードバックループを回す •
⽬的を⾒失わずに⼿を動かしていく

生成AIによる単純なコード生成のベンチマーク : HumanEval 40

41 • Open AIが2021年に公開した、コード⽣成の定量評価のためのベンチマークのためのデータセット ◦ LLMに⼊れるprompt, 実装するentry_point, 検証⽤test,... •
GitHub由来の解答を⽣成しないように、⼈間が⼿書きでコードを⽣成。⾔語理解、アルゴリズムなどコーディング⾯接っぽい問題。Pythonのコード。データセット: HumanEval Mark Chen, et.al. , Evaluating Large Language Models Trained on Code, 2021, https://arxiv.org/pdf/2107.03374, https://github.com/openai/human-eval

42 • HumanEvalは英語,Pythonのみ。複数⾔語でコード⽣成のベンチマークを⽐較したいというモチベーション • 23の⾃然⾔語(without Japanese😇)と12のプログラミング⾔語があります ◦ 単純なコード⽣成能⼒というより多⾔語間でのコード⽣成能⼒の⽐較
のためのもの HumanEval-XL Qiwei Peng, Yekun Chai, and Xuhong Li, 2024, LREC-COLING 2024 | HumanEval-XL: An Execution-based Multilingual Code Generation Benchmark Across 23 Natural Languages and 12 Programming Languages, https://github.com/ﬂoatai/HumanEval-XL, https://huggingface.co/datasets/ﬂoatai/HumanEval-XL

43 HumanEval-XL Qiwei Peng, Yekun Chai, and Xuhong Li, 2024,
LREC-COLING 2024 | HumanEval-XL: An Execution-based Multilingual Code Generation Benchmark Across 23 Natural Languages and 12 Programming Languages, Fig 1, Illustration of data construction in four steps.

44 • 問題に対してk個のサンプルを⽣成して、少なくとも⼀つのサンプルがtestをpassするコードがかける問題数の全問題数に対する割合 ◦ 実際はk << nのn個を⽣成して不偏推定量を使います。評価⽅法:
pass@k について Kulal, et.al, 2019 ,SPoC: Search‑Based Pseudocode to Code

45 pass@1: ⼀回の試⾏で正しい正解を出⼒する能⼒の指標。最初の提案にどれくらい信頼がおけるか、開発者がどれくらい⼿放しで開発できるかがわかる。 pass@100: 理論的な上限を探る指標。多数の不正解の中に埋もれていたとしても、モデルが正解を⽣成する絶対的な能⼒を持っているかを評価します。 pass@10, pass@5: 開発者が選択肢を確認したり、対話的にコードを⽣成し
ていくシナリオのものです。多様なコード⽣成をしつつ、正しいコードが⽣成できるかの指標評価⽅法: pass@k について Qiwei Peng, Yekun Chai, and Xuhong Li, 2024, LREC-COLING 2024 | HumanEval-XL: An Execution-based Multilingual Code Generation Benchmark Across 23 Natural Languages and 12 Programming Languages, Fig 1, Illustration of data construction in four steps.

47 HumanEval-XLを実際触ってみる

HumanEval-XLを実際みて触ってみる 48 Hugging faceからデータを取得 https://huggingface.co/

HumanEval-XLを実際みて触ってみる 49 jsonでこのようなデータがもらえる

HumanEval-XLを実際みて触ってみる 50 promptはこんな感じ

HumanEval-XLを実際みて触ってみる 51 問題はこんな感じ • ⼝座の残⾼を追跡し、途中でマイナスになるかを判定。 • 整数リストの合計と積を返す。空なら (0,1)。 • リストからユニークな要素を取り出し、昇順にソート。
• 整数リスト内に、和がゼロになるペアがあるか判定。 • ⽂字列をMD5ハッシュに変換。空なら None。 • ⼆つの整数 a, b の間の偶数を昇順で返す。簡単な問題、⾼難易度の問題がある！

HumanEval-XLを実際みて触ってみる 52 ⾃分で試してみる: 銀⾏⼝座残⾼管理問題 Claude Code Sonnet 4.1(2025-0929)で試しました問題預⾦‧引き出し操作のリストが与えられ、ゼロ残⾼から開始して、任意の時点
で残⾼がゼロを下回るかどうかを検出する関数を実装します。下回った時点で Trueを返し、そうでなければFalseを返します。例: - `below_zero([1, 2, 3])` → False（残⾼: 0→1→3→6） - `below_zero([1, 2, -4, 5])` → True（残⾼: 0→1→3→-1で負になる）

HumanEval-XLを実際みて触ってみる 55 ⾃分で試してみる: 銀⾏⼝座残⾼管理結果...！

HumanEval-XLを実際みて触ってみる 56 ⾃分で試してみる: 銀⾏⼝座残⾼管理結果...！ 😎

HumanEval-XLを実際みて触ってみる 57 • 実際はいちいちClaude Codeに⼊⼒するのではなく、⾃動でコード⽣成、テスト検証、結果記録までのパイプラインをつくってやっています！ • ですが、何がテストされていて、どういう検証がされているか調べるのはおもしろいので、ぜひみてみてく
ださい！ぜひ実際にみてみてください

59 現実世界のソフトウェア開発の動きに近いベンチマーク : SWE-bench

60 • LLMが現実世界のソフトウェアエンジニアリングの問題をどれだけ解決できるかを評価するためのもの • Githubの有名リポジトリからIssueと解決したPRを集めて、修正パッチを作成できるかをテスト • 単なるコード補完で以上のバグ特定や修正ができるのかを評価するもの
SWE-bench SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez et al. 2024, https://arxiv.org/abs/2310.06770 https://github.com/SWE-bench/SWE-bench

61 HumanEvalとの違い SWE-bench: Can Language Models Resolve Real-World GitHub Issues?,
Carlos E. Jimenez et al. 2024, https://arxiv.org/abs/2310.06770 https://github.com/SWE-bench/SWE-bench HumanEval • 関数やクラス単位でのコード⽣成 • 数⾏で解け、⾃⼰完結する問題が中⼼ SWE-Benchは... • リポジトリ横断の⽂脈把握とコード⽣成を要求 • 現実のソフトウェア開発に則したベンチマーク

62 SWE-bench Multilingual https://www.swebench.com/multilingual.html • 多プログラミング⾔語対応のSWE-bench • Claude 3.7 Sonnetに絞ってますが、C、C++、Go、
Java、JavaScript、TypeScript、PHP、Ruby、Rustで実施 • 中央値で10⾏、95%の課題が110⾏以内のコード変更で解決可能 • 明確なユニットテストがあるものに限定 ※この⼤規模版としてMulti-SWE-benchもあります。⼀旦今⽇は上記の話をします。

63 https://github.com/gin-gonic/gin/pull/1805, https://github.com/gin-gonic/gin/issues/1804

64 https://github.com/gin-gonic/gin/pull/1805, https://github.com/gin-gonic/gin/issues/1804

65 どうなったらpassなのか • Caddyは設定ファイルを読み込んでWebサーバーを起動するOSS。設定ファイルにはimportという機能があり、よく使う設定をテンプレート化して再利⽤可能 • これが、⼊れ⼦構造にすると動かなくなるissue • 正解は、設定ファイルの判定処理を修正し、3ファイルに
またがる55⾏の変更が必要このPRの⾃動テストがpassする実装が書けたらクリア！

66 結果: 正答率 https://www.swebench.com/multilingual.html

67 結果: ⾔語ごとのコード変更⾏数 https://www.swebench.com/multilingual.html

68 研究の限界 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?,
Carlos E. Jimenez et al. 2024, https://arxiv.org/abs/2310.06770 https://github.com/SWE-bench/SWE-bench • 相対的に易しい課題が多い • コードを書く以前/以外の環境的な難しさは評価してない • テストが通るかだけで判定するため、コードの品質を⾒落とすことがある。passしていても可読性が低かったり⾮効率であったり保守性が低い場合がある • コードスタイルを無視した強引な修正を⾏なうことも

こちらのブログでさらに詳しく書いています！ 69 https://developers.gmo.jp/technology/78505/

71 研究との現場の違い

72 現場では... AIエージェントを⽤いた開発を⾏って... • デプロイの頻度/リードタイムはガクッと増えているチームもあれば、そこまで増えていないチームもある。 • AIエージェントをつかう+ AIエージェントの効果を⼤きくするための体勢を整える。
• アクションに対するKPIとして引き続き定量数値を確認する。

73 研究では... AIモデルの進化によって... • 単純なコーディング問題の正解数は増えている。 • すでに解決されているOSSのissueを、複数ファイルの調査や編集をして解決できるようになっている。 • 多くのファイルを読んで、原因を突き⽌めて、その原因を
解決する実装を独⼒で書けるようになっている。

74 結局、開発は加速した...？そこまで変わらない？ PRマージ数は⼤きく変化してないリリース時間も速くなってない現実では変わってないんじゃ？

75 結局、開発は加速した...？速くなった？ベンチマークのスコアが上がってるエージェントは多くのことができるようになっている便利だし速くなっている！

76 結局、開発は加速した...？速くなった？ベンチマークのスコアが上がってるエージェントは多くのことができるようになっている便利だし速くなっている！そこまで変わらない？ PRマージ数は⼤きく変化してないリリース時間も速くなってない
現実では変わってないんじゃ？

現実では変わってないんじゃ？矛盾！

現実では変わってないんじゃ？矛盾！に⾒えますが...

現実では変わってないんじゃ？どちらも⼀つの側⾯では正しいです

80 AIモデル AIエージェント人

81 AIモデル AIエージェント人ジュニアエンジニアシニアエンジニアビジネス職

82 人指示入力推論結果 AIモデル AIエージェント成果物レビューリリース
課題

課題最新のモデル！

課題アップデート！使いやすく！

課題プロンプト勉強しました！

課題そもそも課題をわかってない

課題大量でレビューできない

課題リリースフローが整ってない

89 速くなった！変わらない！

90 AIエージェントを⽤いた開発フローの特定箇所に着⽬して速さを測定している AIの⼊出⼒に近いところでは速くても開発⽣産性指標では速くなっていない

92 これを踏まえたAI時代の動き

課題全体を踏まえて一番良いようにして！

課題

95 多くの選択肢...どれがいいの？ AIモデル AIエージェント

課題

97 人⼈もやるべきことがたくさん...

98 結局どれが⼀番良いんだろう？

99 『AI時代のソフトウェア開発を考える（2025/07版）』より引用 (https://speakerdeck.com/ twada/agentic-software-e ngineering-findy-2025-07- edition)

100 AIは“最⾼”の変化が激しい • 進化や発展が特に速いAI技術群、最⾼のものはすぐに塗り変わってしまう。 • 関わるプロダクトや⼈によっても最⾼は変わる。

101 『LLM（大規模言語モデル）の変遷まとめ』より (https://zenn.dev/muit_techblog/articles/0bd35b9c4ea6b1)

102 AIは“最⾼”の変化が激しい • 進化や発展が特に速いAI技術群、最⾼のものはすぐに塗り変わってしまう。 • 関わるプロダクトや⼈によっても最⾼は変わる。

103 人 AIモデル AIエージェント成果物リリース課題 GUIが良いな... エンジニアじゃない...
会社で契約しているモデルにしたい ... 安く済ませたい ...

104 両睨み🐍 • 進化や発展が特に速いAI技術群、最⾼のものはすぐに塗り変わってしまう。 • 関わるプロダクトや⼈によっても最⾼は変わる。 • 特定のAIモデルやツールだけを使うのではなく、いつでも乗り換えられるように両睨みすべき。
• 最新の情報をキャッチして、実際に試してみて、より良い場合に乗り換える柔軟さが強みになりそう。

105 どれも試してみましょう！ (伏線回収) 105

106 106 どれも試してみましょう！ (多いけど少しずつ...)

107 107 両睨みしましょう🐍 • AI技術群は進化や発展がとても速く、最⾼のものはすぐに塗り変わってしまう。 • 関わるプロダクトや⼈によっても最⾼は変わる。 • 特定のAIエージェントや技術だけを使うのではなく、
いつでも乗り換えられるように両睨みすべき。 • 最新の情報をキャッチアップして、実際に試して、より良い場合に乗り換える柔軟さが強みになりそう。

現場では • Four keysを指標として⽣産性の向上を測定 • チームごとで測定結果が異なる場合がある • 指標を⽬標とするのではなく気づきのヒントとして、アクションを繰り返し、試⾏錯誤するまとめ1
108

研究では • 単純なプログラミングテストによるベンチマークや、OSSのissueをcloseさせられるかで判定するベンチマークがある • テストが通るかどうかで判定しており、保守性などの要件はテストされていない 109 まとめ2

• 研究で⾒ている部分と現場で⾒ている部分はAI エージェントを⽤いた開発フローの⼀つの側⾯ • 開発フロー全体を⾒て議論をしていく必要がある • AIによる開発の”最⾼”は変化が激しい • 特定の物だけを使うのではなく、両睨みするためにたくさんキャッチアップしていくことが重要
110 むすび

111 Let’s AI Let’s Buri

AIで開発はどれくらい加速したのか？AIエージェントによるコード生成を、現場の評価と研究開発の...

AIで開発はどれくらい加速したのか？AIエージェントによるコード生成を、現場の評価と研究開発の評価の両面からdeep diveしてみる

More Decks by どすこい

Other Decks in Programming

Featured

Transcript