AIは変更差分からユニットテスト_結合テスト_システムテストでテストすべきことが出せるのか？

AIは変更差分からユニットテスト結合テストシステムテストでテストすべきことが出せるのか？松谷峰生

2 名前 : 松⾕峰⽣（まつ）仕事 : ハードウェアの⼈ & QAエンジニア社外活動
• マンガ家 ◦ ベリサーブ様HQWにて⽉刊マンガ連載 ◦ テスターちゃん (最近はお休み中) • ソフトウェアテストシンポジウム九州の共同実⾏委員⻑ • ソフトウェアテスト技術振興協会の教育事業領域担当⾃⼰紹介出典 : C&R研究所マンガでわかるソフトウェアテスト入門テスターちゃん Vol.2 https://www.veriserve.co.jp/helloqualityworld/media/20250808001/

テーマ AIは適切なテストすべき場所(テストレベル)で適切なテストすべきこと(テスト観点)を出せるのか？ ※今日の発表は私が個人で行っている活動の話です

発表を聞くための認識合わせ

5 開発時はフワっとしたものをギュッと固めていくイメージ要求要件仕様設計実装フワッとしたもの色々決まって固まっていく ※画面は開発中のものです

6 バグの多くは「忘れもの」要求要件仕様設計実装テスト・実装漏れ・実装の間違い
・設計の間違い・影響箇所の把握漏れ・認識の齟齬実装通り動くかの確認だけでいい？・仕様漏れ・書き間違え・仕様の更新忘れ・要件定義漏れ・認識の齟齬

7 テストの時は「忘れものない？」と発想を広げる要求要件仕様設計実装テストの時は発想を広げていく活動も必要忘れものないかな？
考慮漏れで65536秒後にバグるじゃん！管理ツールも変更必要じゃん！

8 テストで⾏うこと3選確認活動「決めたものが決めた通り動く」 →　ユニットテストが典型例バグの探索忘れもの（考慮漏れ、決めていない）や「何かおかしいぞ …？」を探して発見する活動　→コードに直接現れにくい問題妥当性確認
「顧客が本当に必要だったもの」ができているか　 →　A/Bテストやユーザーテスト　　現実の問題　　　確認活動に終始してしまい、バグの探索が不十分になりがち

9 テストの⽬的を達成するために最適な場所があるダメージ計算が正しいか確認したいのですが、武器が出る確率が低すぎるのでデバッグメニューを作ってください。ダメージ計算のロジックの正しさならユニットテストで確認したほうがいいのでは？

10 テストレベル3選 (テスト活動をグループ分けしたもの) ユニットテスト (コンポーネントテスト) メソッド単体などテストできる最小単位での確認　→　主にロジックの確認インテグレーションテスト (結合テスト/コンポーネント統合テスト) メソッド間のやりとり、コンポーネント間のやり取り
　→　主にインターフェイス（接点の部分）に着目して相互処理の確認システムテストシステムを通してのテスト　 →　システム全体にしたときに要件を満たしているか確認　　現実の問題　　　なんでもユニットテスト、なんでもシステムテストでやろうとして非効率になりがち

テーマ AIは適切なテストレベルで適切なテスト観点を出せるのか？

実験 Cursor x Claude-4-Sonnet で試してみた

13 個⼈開発の横シューティングゲームで実験実験環境 • エディター : Cursor • AIモデル :
Claude-4-Sonnet • プロジェクト : Unity ◦ 個人開発の横シューティングゲーム • テスト対象 : 新武器「クラスター爆弾」実装仕様 • 大きい親弾が重力に従って少し下に落ちる • そこからゴゴゴーと前に加速しながら前進 • パカっと外装が外れて、子弾が下にばらまかれる • (細かくはもっとあるが略 ) 実装

14 各テストレベルでテストすべきことを出せるのか？変更差分から、ユニットテストでテストすべきこと、インテグレーションテストでテストすべきこと、システムテストでテストすべきことを出せるのか？ Cursorではdiffをコンテキストとして与えることができる diffには載らないがテストすべきことも出したい

15 “ないもの”を⾒つけられるのか？バグを2つ仕込み、 AIがそれを見つけるテスト観点を出せるのか？ダメージ値をコードにベタ書き → インテグレーションテストで見つけたい他の武器では必ず呼んでいる SetDamage()の呼び忘れ。これにより ItemDataからダメージ値を取ってこ
ない。よって後々ItemDataをいじってもダメージが反映されないことになる。親弾のtagの設定忘れ → システムテストで見つけたい何のオブジェクトにぶつかったかは tagで判定している。親弾に設定を忘れたため、親弾にぶつかってもダメージ処理が走らない　コードに現れないものを見つけられるのか？

16 ⽐較⽤に⼈間もテスト観点を出しておく AIが出したテスト観点と比較するため、事前に人間もテスト観点を出しておくユニットテスト・ダメージ計算・子弾の発射ロジック etc… インテグレーションテスト・設定呼び出し
・キャラによるダメージ倍率変化 etc… システムテスト・カッコ良さ！・ゲーム内特有のルールの適用 etc…

実験結果

18 仕込んだバグを⾒つけられるテスト観点を出せた仕込んだバグを 2つとも見つけられるテスト観点を出せた ! PASS ダメージ値をコードにベタ書き → インテグレーションテストで出している「弾丸設定読み込みテスト」のテスト観点を出している。このテストを詳細化
(AIでも人でも)するとおのずと ItemDataからのダメージ値呼び出しは通る親弾のtagの設定忘れ → インテグレーションテストで出している「敵ダメージ適用テスト」のテスト観点を出している。出て当然のテスト観点だが、詳細化すればダメージが適用されるかされないかはおのずと通る私が仕込んだ 2つのバグを拾える観点を出せたということは、本当の「忘れもの」も見つけられる可能性が高い

19 各テストレベルでテストすべきことを出せていそう各テストレベルでテストすべきことを出せているが、インテグレーションテストが曖昧 (私の指示が曖昧 ) おおよそ OK ユニットテスト各種パラメーターのテストやロジックのテスト、メモリリークのテストなど、ユニットテストの項目はさすが。
私が考えるよりも詳細であったインテグレーションテスト相互作用があるテスト観点は全てここに含まれている。コードで見るべきテストもあれば、音響テストのような実プレイで見たほうが良いテストもある。システムテスト通常プレイでの武器の実用性、ボス戦に有効か、パフォーマンステストなど、全体を通して見るべき妥当な項目が出せている

20 AIの出したテスト観点を取捨選択、補完して使うべし AIが出せて人間が出せなかったテスト観点もあれば、逆もあるこのゲーム特有の仕様のテスト観点は出せないこのゲームはプレイヤーが左右を向けるといった特有の実装があるが、特有部分のテスト観点が出せていない。一般的なシューティングゲームの内容からテスト観点を出しているパフォーマンスやメモリリークなど非機能のテスト観点が含まれている私はどうしても機能に着目してしまいパフォーマンスなど非機能要件の考慮が抜けることが多々あるが、 AIが出したテスト観点に含まれる (今回の武器は子弾をばら撒くので重要
) 　現状での根本的な問題　　AIはコードベースの実際の状況を把握しているわけではない　　　→　一般的なゲーム開発の知識で推測している最近mdc(ルール)ファイルに仕様を書いて読み込ませることを試している

21 AIの問題点ハルシネーションが多発先にお伝えした通り一般的なゲーム開発知識での推測が入った。よって、オブジェクトプールや武器の切り替えなど実装していない機能のテスト観点が入っている過剰なテスト物理演算の確認など、求めていないレベルでの過剰なテスト観点を出しているより良い結果を得るために・コンテキスト情報を充実　 →　diffだけでなく仕様なども渡す（コードベース全体を渡せたら
…）・プロンプトを具体化　 →　「変更内容に絞って」だと手が加わったコード全体を読んでいるように見える。 tag忘れは拾えていなかった。ハルシネーションはおさえられているが発生している

22 実⽤的な活⽤⽅法基本戦略「AIでテスト観点を出し、人間が観点を追加/取捨選択する」「AIでどのテストレベルで何のテストをするか出し、テストの最適化をする」・初期のテストアプローチ生成　　ゼロから考える手間の削減・大まかなテスト観点の洗い出し　　人間が見落としがちな観点導出・テストレベルの分類
　　どのテストをどこで行うかの提案 AIの役割・プロダクト固有のテスト観点追加　　プロダクト特有の仕様など・ハルシネーションの除去　　存在しない機能・観点の除去・テストの詳細さの調整　　自プロダクトの品質目標に合わせる・優先度の判断　　優先すべきテストの判断人間の役割

23 まとめ結論各テストレベルに適したテスト観点をかなりよく出せるようになっている。だが人間がサポートをしないと無駄なテスト・出来ないテストが発生する。「全部」を求める 0か100かの思考ではなく「ある程度の手間の削減・補完」として活用しよう期待できること・テストすべきことの洗い出しの支援
・見落としがちなテスト観点の発見・テストアプローチのたたき台作成・ある程度の手間の削減期待できないこと・完璧なテスト観点の生成・プロダクト固有の仕様の把握・100%正確な情報・ちょうどよい粒度のテスト

24 おまけ : GPT5で実験 HPが0になったら一定時間点滅して周囲を巻き込んで爆発する敵キャラ追加 https://github.com/jam0824/AIWritesTestPlan/blob/main/bomberFly_test_plan.md 結論「実装の確認作業」としてのテストであれば GPT5で行うとよい。
90FPSという全体設定は変更していないファイルに記載。よって変更していないファイルも参照している。 (GPT5というより今のCursorの性能か) ハルシネーションがなく素晴らしい。ただし良くも悪くも発想もない。よって「忘れもの」発見は難しいかもしれない。

25 詳細は以下の記事変更差分からユニットテスト /結合テスト/システムテストのテスト観点を出せるのか？【 cursor】 https://zenn.dev/jam0824/articles/877546e6d059fb

ご清聴ありがとうございました！ ※画面は開発中のものです

AIは変更差分からユニットテスト_結合テスト_システムテストでテストすべきことが出せるのか？

AIは変更差分からユニットテスト_結合テスト_システムテストでテストすべきことが出せるのか？

Matsu

More Decks by Matsu

Other Decks in Technology

Featured

Transcript