Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIでユーザを怒らせないために

Avatar for rocky rocky
September 23, 2025

 AIでユーザを怒らせないために

プロダクトヒストリーカンファレンス2025 の登壇資料です
https://lp-prohis.youtrust.jp/

LAPRASにおけるLLMプロダクトの品質周りについての取り組みについてお話させていただきました。

Avatar for rocky

rocky

September 23, 2025
Tweet

More Decks by rocky

Other Decks in Technology

Transcript

  1. @PRODUCT HISTORY CONFERENCE 2025 2025.09.18 LAPRAS株式会社CTO 興梠 敬典 AIでユーザをガッカリさせないために 怒らせないために

    これでいかせてください LLMアプリケーションの品質向上のための設計とプロセスの工夫
  2. 責任の大きさの話 - 機能の位置付け次第 今回の市場価値スコアのコメント機能のリリースは、これまでリリースした LLM を利用したアプリケーションと比較しても、 一番不安が大きいです。ユーザーの書いた Qiita 記事をレビューするのと、ユーザーの市場価値スコア、もとい、Career ページに

    入力されている情報 ー つまりキャリアについてアドバイスするのとでは、 プレッシャーの度合いが全然違います。 開発者コメント キャリアや転職関係のサービスを運営しているLAPRASにとって、 「ユーザのキャリアや転職市場での立ち位置についてコメントする」 というのはとてもシリアスな領域 転職市場についての有識者であり、ユーザの理解者でもあるという立ち位置から 自信や気付きなど、価値をえることのできる総評を出力する必要がある ⇒ 責任は”大”
  3. • インタラクティブな会話による LLM の利用 ◦ ChatGPT, Cursor, Claude Code などなど

    ◦ ユーザーが会話を通して理想の出力を得ようとする → 得られた出力を採用するか否かはユーザーの自己責任 • 一方通行の指示による LLM の利用 ◦ LAPRASの「記事 AI レビュー」「キャリア市場価値コメント」などはこちら ◦ 人による判断の介入ができない → AIの出力の責任が100%サービス提供側に ※こういった LLM アプリケーションを分類するときに、「Agent か否かではなく、どれくらい Agentic か (エージェントっぽいか) で判断すべき」、つまりグラデーションで判断す べき、という考え方がありますが、その両極端に位置するアプリケーションの両方を扱っている自分たちとしては、これらを区別したいため、このような呼び分けをしています。 —------- 厳密にはこのような二元論ではなくこの間のいずれかに位置します----------- 責任の所在の話 - LLMの利用方法による
  4. 検索条件生成 解釈 見解付与 LAPRAS 意識の低い要件 意識の低い人に 刺さる表現 LAPRAS MCP 普通の検索条件

    普通の求人情報 (表現における)責任の壁 真面目に利用する ユーザもいる
  5. 検索条件生成 解釈 見解付与 LAPRAS スパルタに やってくれ スパルタ コメント LAPRAS MCP

    普通の検索条件 普通の求人情報 (表現における)責任の壁
  6. ◦ 品質の言語化 ▪ 「良い」の定義を具体的に定める ◦ 検証基盤の構築 ▪ 評価セットの作成: • 品質を測るための基準データを用意する

    ▪ Assertionの実装: • (特に)「当たり前品質」は自動チェックされるようにする ▪ ツールによる検証負荷軽減 • promptfoo等のツールを持ちいて 定量的・客観的に評価しやすくする 品質の担保 - プロセス的な工夫 3.0 = LLM時代でも本質は変わらない この2つからはじめます
  7. 品質の言語化 満たすべき/満たしたい「品質」を言語化できないということは... → 自分たちの実現したい機能の品質保証を LLM に「お任せ」している状態 → LLM の出力を制御できていないことと同義 このコードおかしくない?

    AIがやったところなので 特にLLMでユーザ向けの文章を出力する際は • LLMの作文を受けてユーザーにどう行動してほしいか • どういう気持ちになってほしいか • どう心が動いてほしいか これらを考慮してなるべく明瞭な指示を心掛けます
  8. 品質の言語化 満たすべき/満たしたい「品質」を言語化できないということは... → 自分たちの実現したい機能の品質保証を LLM に「お任せ」している状態 → LLM の出力を制御できていないことと同義 このコードおかしくない?

    AIがやったところなので 特にLLMでユーザ向けの文章を出力する際は • LLMの作文を受けてユーザーにどう行動してほしいか • どういう気持ちになってほしいか • どう心が動いてほしいか これらを考慮してなるべく明瞭な指示を心掛けます
  9. - 特に人の感じ方に関わる機能 ユーザインタビュー等を通じて体験を向上させていきたい - ただでさえLLMの出力は確率的なものである上に、 頻繁にアップデートしながら構築していく必要がある - 運用段階でももちろん重要に - 将来的にモデルが利用できなくなることもある

    検証基盤の構築 最初に 評価の仕組みを作り、 これをベースに改善のサイクルをなるべく高速に回していく LLM登場以前から変わらないベストプラクティスと考えています CI/CDの整備と同様 → 理想の出力、過去の出力について比較・検証が可能な状態をつくっておく
  10. アサーション : 当たり前品質の担保 ◦ 主に当たり前品質については、 アサーションを実装して自動でエラーを検知できるようにしつつ、 本番実行時にもエラーとして落とすようにしています ▪ 主にPydantic の

    validation の仕組みを利用しています ◦ 一元的品質以上については、それに違反したからと言って本番でエラー にしたくないため、ユニットテスト的なスクリプトを用意します
  11. ツールによる検証負荷軽減 • オープンソースの LLM のテストツール • 複数のプロンプト x 複数のモデル x

    複数のアサーションによるテスト結果を、 CLIやブラウザで一覧で確認することができる https://www.promptfoo.dev/ モデルやプロンプトごとの出力を記録しつつ、 いい感じに比較できるUIも提供してくれるテストランナー的なもの 一元的品質以上の内容は、定性的な評価がどうしても必要になるため、 ツールを利用して負荷軽減を計っています
  12. LAPRASの求人 職務経歴情報 全体スコア 詳細スコア 企業からの 注目度 • 弱い分類器 x 多数

    → 大数の法則で精度・ロバスト性を実現 • 求人で需要があるスキル要件で判定 → 実際の市場価値を反映した評価 • LAPRASユーザーの中での相対評価 → 転職市場の中での相対的な立ち位置の判定 キャリア市場価値レポートの仕組み : 市場価値スコアの算出
  13. 職務経歴 市場価値スコアスコア (市場での立ち位置 ) キャリア市場価値レポートの仕組み 詳細スコア (強みの方向性 ) 推定保有スキル 今後やりたいこと

    以下(+α) 全てをコンテキストとして入力しています プロンプトの工夫でこれを実現することはとても難しい (不可能に近い ) → プロンプトよりもコンテキスト情報で出力の性能が決まる 個人の職務経歴情報に加えて、 求人や市場の情報をインプットとすることによって 「要約しただけ」「適当に当たり障りのないことを言っている」 などの感触をぬぐい、転職市場の有識者としてのコメントが可能に
  14. • 品質の言語化の重要性 ◦ 出力結果を論理的に担保しづらいからこそ 事前に品質を言語化することが重要 • プロトタイプ&フィードバックプロセスの重要性 ◦ LLMで簡単にプロトタイプが作れるからこそ、 早期に検証基盤を作り、素早くたくさん試すことが重要

    ◦ 評価セットは現在も変わらず必要(頑張る) • 適切なコンテキストの重要性 ◦ プロンプトよりもコンテキスト情報で出力の性能が決まる (プロンプトも大事です) まとめ(もとい学び)
  15. @PRODUCT HISTORY CONFERENCE 2025 2025.09.18 LAPRAS株式会社CTO 興梠 敬典 AIでユーザをガッカリさせないために 怒らせないために

    これでいかせてください LLMアプリケーションの品質向上のための設計とプロセスの工夫