AIを使っていい感じにE2Eテストを書けるようになるまで / Trying to Write Good E2E Tests with AI

© Scalebase Inc. 1. ⾃⼰紹介 & 会社紹介 2. 前提のすり合わせ 3.
今回のお題 4. 試⾏錯誤 Day 1 5. 試⾏錯誤 Day 2 6. 試⾏錯誤 Day 3 7. Extra Day 8. まとめ⽬次

© Scalebase Inc. はじめに⾃⼰紹介あきさん（Akihiro YOKOTA） • Scalebase株式会社 QAエンジニア
• X: @katawara 名刺管理の会社でバックエンドエンジニアやEMを経て、QAチームの⽴ち上げから、全社横断のQA組織を作るまでを経験。 2023年にScalebase株式会社（旧‧アルプ株式会社）に⼊社。社内唯⼀のQAエンジニアとしてできることは何かを⽇々模索する。

© Scalebase Inc. サブスクリプションビジネスにおける主な課題成⻑の先にある販売管理業務の複雑性 • ユーザー数の増加や提供プランの多様化といったサブスクリプションモデル特有の課題 • 料⾦体系の複雑化（⽇割、請求サイクル、利⽤量
に応じた従量課⾦）、アップ/ダウンセル、割引‧ キャンペーン適⽤などが発⽣ • 「契約期間」というサブスクリプションビジネス特有の概念での管理の必要性既存の仕組みでは乗り越えられない壁 • 請求計算ミスや売上計上漏れのリスク増⼤、これによる顧客不満や機会損失 • 新しいプランやモデルを試したい時に、システム側の制約で迅速に実⾏できない • サブスクリプションビジネス特有の重要指標が正確に把握できない • 業務プロセスごとにシステムが分断され、データドリブンな意思決定につなげられない業務⼯数の増加属⼈化請求ミスのリスク事業成⻑へのブレーキデータ管理の⼀元化

© Scalebase Inc. ⼿動テストローコードテスト⼿動テスト‧ローコードテスト‧コードベーステストを場⾯に応じて使い分け Scalebaseのテストの構成コードベーステスト • 他社サービスとの連携が必要なテス
トを主戦場とする • コードベースで実装すると⼤変なもの（メール受信など）でも活⽤ • 新規開発で作ったものに対して実施 • ⾃社内で完結できるテストはこちらを優先的に検討 • ハッピーパスを中⼼に、マイナーな操作でテストを忘れがちなシナリオまでをカバー

© Scalebase Inc. 数ヶ⽉の間に社内公式で使えるAIの選択肢は爆増 AIを使わないという選択肢はなくなってきている AIの利活⽤に対する温度感は圧倒的に上がってきた ScalebaseのAI活⽤状況当時 • GitHub
Copilot 現在 • GitHub Copilot • Cursor • Claude Code • Devin • Notion AI

© Scalebase Inc. • 今回のお話は、2025年5⽉末に⾃分のnoteに書いた「 AIを使っていい感じにE2Eテストを書けるようになるまで」という記事でのお話をベースにしています。 •
投稿から2ヶ⽉弱前（かつ、取り組み⾃体はさらにその前）の話なので、少し古くなっている部分もあるかと思いますがご容赦ください。 • 今同じことをやろうとしたら、全く違う選択をした可能性があります。そのあたりは当時のスナップショットとしてご覧いただけますと幸いです。おことわり 🙇

© Scalebase Inc. • もともとE2Eテストを拡充しようという話題があって、事前にこの内容でテストしようか、みたいなことを議論していた中で、それにAIの活⽤を絡めた、という形 • AIの活⽤が話題になるつつあると⾔っても、わりと⼿探りの中で、ちょうど良さそうなお題だからためしにやってみようか、くらいの状態 •
⽬的がより短い⼯数で果たされるならラッキーだし、どうせだったら⼀回しっかり使い込んでみて組織の知⾒としよう、という気持ち背景‧コンテキスト

© Scalebase Inc. • ⾔語: TypeScript • テストフレームワーク: Playwright •
エディタ: Visual Studio Code • エージェント‧モデル: GitHub Copilot x Claude 3.7 Sonnet • MCP: GitHub, Playwright 基本的には、社内で使えるものだけを選んで、将来的に社内の誰でもが実⾏できる状態を作れるように配慮した当時の環境について

© Scalebase Inc. © Scalebase Inc. Day 1 AI 100%
/ ⼈間 0%

© Scalebase Inc. • Cursorの無料枠を使って、テストコードを書かせてみる ◦ とにかく⾃分は⼿を出さずに、⼝だけ出す ◦ ペアプロで⾔うところのナビゲーターに徹する感覚 •
先⾏事例の記事も参考にしつつ、まずはやってみる ◦ ⼀回極端に振り切ってみて、体験知を積み上げることもきっと⼤事と判断 AIに全部やらせてみる

© Scalebase Inc. • 4時間くらいかかって、1つのシナリオも完成させられず、無料枠を全部使い切ってしまう • 結構細かいことにも⼝出しし続けてしまった • その上、そういったことは⾔語化するのがちょっと⾯倒 •
それくらいだったら⾔葉にするより⾃分で直すわ、みたいな気持ちをぐっとこらえる場⾯もちらほら • こだわりみたいなものが出てしまったかもしれないが、まずは動くものを⽬指したほうがよかったかも • まったくVibe Codingできない‧‧‧ 結果 😭

/ ⼈間 50%

© Scalebase Inc. • 初⼿をAIに実装してもらい、残りを⼈間が担当する ◦ ペアプロで⾔うところのドライバーを途中で交代する感覚 ◦ 初⼿のアウトプットは、どうであれとりあえず受け⼊れてコミットするという⽅針転換もした •
だいたい動きそうなところまでAIに書いてもらって、実際に動かしてみてうまく動かなかった部分の反映だったり、細かいところの詰めだったりを⼈間が書く ◦ AIは書き終わったあと、テストの実⾏コマンドを出してくるけど、それはいったん全部無視 AIと⼈間で分担する

© Scalebase Inc. • まあまあ悪くない • ⼤量の⼊⼒項⽬とか、⼿でやると⾯倒な部分もさくっと実装してくれるので、楽な部分はあった • ⾃分の知らない書き⽅で実装してくることもあり、実装の最適解を模索することもできた •
とはいえ、結構直している ◦ ライブラリ的にはもう⾮推奨になっているメソッドを平気で使ってきたり ◦ ⼈間向けの読みやすさや保守のしやすさ、みたいなものには無頓着だったり • 仕事は早いが雑、という感想に⾄る • まだVibe Codingしきれてない結果 🙂

/ ⼈間 20%

© Scalebase Inc. • カスタムインストラクションを使って、普段⾃分が気にしていたことを改めて⾔語化する ◦ レビューするときに注意して⾒ていたことや、こう書いてくれたら嬉しいと思うことをまとめる ◦ コーディング規約や、チームとしての約束事を⾔葉にして、ある種、AI向けにオンボーディングをするような形
• AIには、毎回それを読み込んでもらったうえでコードを書いてもらうカスタムインストラクションを設定して再挑戦

© Scalebase Inc. • チーム固有のコンテキストをまとめたドキュメントファイルのことで、設定しておくと、エージェントが動作するときにその内容を踏まえた結果を⽣成してくれるようになる仕組みのこと • たとえば、こういうものを書いておくと良いらしい ◦ そのリポジトリの⽬的‧役割
◦ 技術スタック ◦ ディレクトリ構成 ◦ よく使うコマンド ◦ 環境設定のやり⽅ ◦ コーディング規約 ◦ 望ましいコミュニケーションスタイル ◦ レビュー⽅針 ◦ などなど（ほしいものをAI⾃体に聞いてしまい、それを書いていくというのも⼿）参考: カスタムインストラクションとは

© Scalebase Inc. • 精度がめっちゃ上がった • 「とにかくテストを書く」から、「いい感じにテストを書く」に進化した瞬間 • 修正も軽微で終わって、実装にかかる時間は減ったし、体験も良い •
ものによっては、そのまま運⽤に回してもほぼ差し⽀えなかった • これなら誰か別の⼈が対応することになってもうまく回していけそう • そろそろVibe Codingしてもいい、か‧‧‧？ 🥳 結果

© Scalebase Inc. リポジトリのルートに .github/copilot-instructions.md を⽤意して、そこに記述するリポジトリのルートに .cursor/rules/**.mdc を⽤意して、そこに記述する（複数ファ
イルも可） ※ いずれ使えなくなりそうだけど、リポジトリのルートに .cursorrules を⽤意して、そこに記述するという⽅法もある GitHub Copilot, Cursor, Claude Code、それぞれでインストラクションの書き⽅が違う GitHub Copilot Cursor Claude Code リポジトリのルートに CLAUDE.md を⽤意して、そこに記述するエージェントによってインストラクションがバラバラ問題

© Scalebase Inc. • ひとまず、各エージェントが同じインストラクションを参照することはできた • 今後、どのエージェントが覇権を取るにせよ、また⼈によって利⽤するエージェントに差異が出たとしても、振り回される確率は減った（はず） • 既存の仕様を踏まえたハック的な側⾯は否めないので、もっといいやり⽅は別にあるかもしれない
🙏 🙂❓ 結果: まだこれから

© Scalebase Inc. • AIにいい感じにアウトプットさせるための試⾏錯誤は、チームメンバーをオンボーディングすることにどこか似ている • いい感じのアウトプットを⽬指すには、依頼者である⼈間側が⼀定の正解やあるべき姿をちゃんと持っていないといけない •
AI「に」伴⾛してAI⾃体の精度を⾼めつつ、AI「と」伴⾛して⾃⼰の練度を⾼める、そんなループを回して、変化や進化に対してしなやかでありたいまとめ

© Scalebase Inc. • CTOがエンジニアにコーディング禁⽌というお触れを出した｜松本和⾼ | EXPLAZA ◦ https://note.com/_mkazutaka/n/n43d3c91ac6b7 •
Figma禁⽌！⽣成AIだけでプロダクトデザインやってみた｜azshi ◦ https://note.com/btm2971/n/naﬀae8ccf6c2 • GitHub Copilot のリポジトリカスタム命令を追加する - GitHub Docs ◦ https://docs.github.com/ja/copilot/how-tos/custom-instructions/adding-repository-custom-instruc tions-for-github-copilot • Cursor ‒ Rules ◦ https://docs.cursor.com/context/rules • Manage Claude's memory - Anthropic ◦ https://docs.anthropic.com/en/docs/claude-code/memory 参考⽂献、URL等

© Scalebase Inc. • AIを使っていい感じにE2Eテストを書けるようになるまで｜Akihiro Yokota（今回の元ネタ） ◦ https://note.com/yokota_alp/n/na1de6c064b4b • Custom
instruction for Playwright（途中で紹介したカスタムインストラクションのサンプル） ◦ https://gist.github.com/katawara/77198bd3050d26edee1d8be5504c3718 参考⽂献、URL等

AIを使っていい感じにE2Eテストを書けるようになるまで / Trying to Write ...

AIを使っていい感じにE2Eテストを書けるようになるまで / Trying to Write Good E2E Tests with AI

Akihiro Yokota

More Decks by Akihiro Yokota

Other Decks in Technology

Featured

Transcript

© Scalebase Inc. 2025/07/22 QA活動におけるAIの利活⽤をシェアしよう！ AIを使っていい感じに E2Eテストを書けるようになるまで

© Scalebase Inc. 1. ⾃⼰紹介 & 会社紹介 2. 前提のすり合わせ 3.

© Scalebase Inc. はじめに⾃⼰紹介あきさん（Akihiro YOKOTA） • Scalebase株式会社 QAエンジニア

© Scalebase Inc. 提供するプロダクト⾒積〜請求/決済〜収益管理を⼀気通貫で網羅サブスクリプションビジネスのための販売管理システム「Scalebase」

© Scalebase Inc. ⼿動テストローコードテスト⼿動テスト‧ローコードテスト‧コードベーステストを場⾯に応じて使い分け Scalebaseのテストの構成コードベーステスト • 他社サービスとの連携が必要なテス

© Scalebase Inc. © Scalebase Inc. 本題の前に

© Scalebase Inc. 数ヶ⽉の間に社内公式で使えるAIの選択肢は爆増 AIを使わないという選択肢はなくなってきている AIの利活⽤に対する温度感は圧倒的に上がってきた ScalebaseのAI活⽤状況当時 • GitHub

© Scalebase Inc. • 今回のお話は、2025年5⽉末に⾃分のnoteに書いた「 AIを使っていい感じにE2Eテストを書けるようになるまで」という記事でのお話をベースにしています。 •

© Scalebase Inc. © Scalebase Inc. 本題

© Scalebase Inc. 事前に⽤意しておいたE2Eテスト向けのテストシナリオをAIに読み込ませて、E2Eテストを実装してみる今回やってみたこと

© Scalebase Inc. • ⾔語: TypeScript • テストフレームワーク: Playwright •

© Scalebase Inc. © Scalebase Inc. Day 1 AI 100%

© Scalebase Inc. • Cursorの無料枠を使って、テストコードを書かせてみる ◦ とにかく⾃分は⼿を出さずに、⼝だけ出す ◦ ペアプロで⾔うところのナビゲーターに徹する感覚 •

© Scalebase Inc. • 4時間くらいかかって、1つのシナリオも完成させられず、無料枠を全部使い切ってしまう • 結構細かいことにも⼝出しし続けてしまった • その上、そういったことは⾔語化するのがちょっと⾯倒 •

© Scalebase Inc. © Scalebase Inc. Day 2 AI 50%

© Scalebase Inc. © Scalebase Inc. Day 3 AI 80%

© Scalebase Inc. https://gist.github.com/katawara/77198bd3050d26edee1d8be5504c3718 参考: カスタムインストラクションの例

© Scalebase Inc. • 精度がめっちゃ上がった • 「とにかくテストを書く」から、「いい感じにテストを書く」に進化した瞬間 • 修正も軽微で終わって、実装にかかる時間は減ったし、体験も良い •

© Scalebase Inc. © Scalebase Inc. Extra Day エージェント乱⽴時代のカスタムインストラクション

© Scalebase Inc. リポジトリのルートに .github/copilot-instructions.md を⽤意して、そこに記述するリポジトリのルートに .cursor/rules/**.mdc を⽤意して、そこに記述する（複数ファ

© Scalebase Inc. どのエージェントでも同じインストラクションを踏まえてほしいあちこちで同じインストラクションを書くのは⾯倒‧‧‧ 個別に書いているとすぐにエージェントごとに差異ができそう‧‧‧

© Scalebase Inc. こんな感じの構成にして、AIさんからも⼒強いお⾔葉をいただく

© Scalebase Inc. • ファイルを読み込んだら特定の⽂字列を吐かせるように（やや過剰かも？） • 使うエージェントによって、動きが微妙に違うのはちょっと興味深い動作確認

© Scalebase Inc. © Scalebase Inc. まとめ

© Scalebase Inc. • CTOがエンジニアにコーディング禁⽌というお触れを出した｜松本和⾼ | EXPLAZA ◦ https://note.com/_mkazutaka/n/n43d3c91ac6b7 •

© Scalebase Inc. • AIを使っていい感じにE2Eテストを書けるようになるまで｜Akihiro Yokota（今回の元ネタ） ◦ https://note.com/yokota_alp/n/na1de6c064b4b • Custom

© Scalebase Inc. © Scalebase Inc. Thank you 🙇