Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMでもいつものテスト技術〜意外と半分はこれまでのテストでした〜

Avatar for Cybozu Cybozu PRO
March 16, 2026
9

 LLMでもいつものテスト技術〜意外と半分はこれまでのテストでした〜

JaSST'26 Tokyo ソフトウェアテストシンポジウム 2026 東京
https://jasst.jp/tokyo/26-about/

【テクノロジーセッション】LLMでもいつものテスト技術〜意外と半分はこれまでのテストでした〜
水谷太一(サイボウズ)

Avatar for Cybozu

Cybozu PRO

March 16, 2026
Tweet

More Decks by Cybozu

Transcript

  1. 水谷太一(くつしたいぬ@dog_dog_3dog) サイボウズ株式会社 QAエンジニア 4月から3年目! 犬が好きです 担当プロダクト サイボウズ Office AI機能 今日話すこと

    既存グループウェアにAI機能を追加した際のテストの進め方と気づき LLMアプリのテストでも、これまでのテスト技術が変わらず重要 自己紹介と今日話すこと イントロ 2
  2. • サイボウズ Office • 中小企業向けグループウェア • 追加したAI機能(3つ) • ヘルプAI •

    製品の使い方をチャットで質問 • 要約AI • 掲示板やメールの内容を要約 • 校正AI • 文章の誤りをチェック・修正 LLMの基盤はAzure を利用 対象プロダクトとAI機能の概要 イントロ 4
  3. 以下の2つの作業をヘルプチャット機能で実施/テストの大枠が整理できたタイミングでステークホルダー間で合意 1. QA内でブレストしてリスクの洗い出し・優先度付け • 品質特性を補助線にリスクを洗い出し • 重大度(壊滅的・重大など)でマッピング 2. リスクがないことを確認するためにテスト目的を整理 機能がoffの設定をしているのに機能が利用できるリスク

    →機能がoffの時に機能が利用できないことを確認するテストが必要 3. テストの優先度を策定 • Must:これがないと機能が使えない / お客様に重大な影響がある • Nice to have:あると良い / 後から直せる • リリース時にテスト不要:将来的で良い / そもそもQA試験は不要なものもここに分類 リスクの洗い出しとテストの優先度付け テストスイート作成 8
  4. • ▲ Must / Nice to have / リリース時に担保不要 の3段階に分類

    リスク不在を確かめるテスト観点の整理 テストスイート作成 10
  5. • ▲ Must / Nice to have / リリース時に担保不要 の3段階に分類

    • プライバシー情報が含まれないシステム のためテストからは除外 • 公平性の部分はモデル側のガードレールで担保 リリース後に必要に応じて追加で調整 リスク不在を確かめるテスト観点の整理 テストスイート作成 11
  6. LLMの応答のテストは2つの方向性から確認 • 応答が機能要件を満たしているか:QAが担当 • セキュリティ:社内のPSIRTに依頼 応答のテストは以下のステップで進めた • 1. 観点の洗い出し •

    2. テストデータの作成 • 3. QA内でレビュー • 4. チーム全体(QA以外も含む)で観点+テストデータを確認 • 5. テスト実施 → 問題がなくなるまでプロンプト修正をQAで実施 LLM部分のテスト ― 何をやったか テスト(LLM) ※LLM品質は他にも多数。今回はリスクと体制から「応答品質/セキュリティ」にフォーカス 19
  7. ※ ここからは、自分が担当した校正AIを例に紹介します • 「校正前後で内容が変わらないこと」 = AIが余計なことをしない • 数字・日付・人名・URLが書き換わらない • 内容が増えたり減ったりしない

    • 言葉の強さが変わらない(「お願いします」→「ご対応お願いします」等) • 注意書きや但し書きが消えない • 「校正ができること」 = AIがやるべきことをやる • 誤字・脱字・転置の検出(「対処療法」→「対療処法」等) • 漢字の変換ミス・同音異字の誤用(「以外/意外」等) • 助詞・活用・敬語の誤り • 句読点の過不足 • ▲ 観点はAIとの壁打ちで校正の誤り分類を洗い出しながら作成 応答品質のテスト観点 ―校正AI テスト(LLM) 20
  8. テストデータに入れたい属性を整理 • テキストの長さ / 含まれる情報(人名・URL・日付等) / 文章の種類(掲示・メール・メッセージ) 例:「500字程度 / 社内メッセージ

    / 砕けた文体 / 人名・日付を含む」 テストデータの作り方 • 1. AIでサンプル文章を生成 • 2. そこにAIで間違いを挿入(誤字・脱字・変換ミス等) テスト実施 一定の水準をクリアするまでプロンプト修正 → 再テストを繰り返した テストデータの作成とテスト実施 テスト(LLM) 21