AIでユーザを怒らせないために

@PRODUCT HISTORY CONFERENCE 2025 2025.09.18 LAPRAS株式会社CTO 興梠敬典 AIでユーザを怒らせないために

LAPRAS株式会社 CTO 興梠敬典(コウロキタカノリ) @rocky_manobi https://lapras.com/public/rocky_manobi

@PRODUCT HISTORY CONFERENCE 2025 2025.09.18 LAPRAS株式会社CTO 興梠敬典 AIでユーザを怒らせないために

そもそも「怒らせる」という言葉自体にどこか揶揄するようなニュアンスが含まれているこのタイトル自体に怒らせる要素が詰まっているですよね

今日のお話 AI(主にLLM)の出力を利用した真面目な機能を提供するにあたっての、品質についての考え方や品質担保のためのプラクティスについて共有します。直近でリリースした機能を題材にしながら、おもちゃや賑やかし機能のような受け取られ方を避け、届けたい価値を安定してユーザに届けるための、プロセス的な工夫、設計的な工夫についてお話ができればと思います。 - LLMがあってもアノテーション、データ収集は未だ重要 -
開発段階から品質検証のしくみを作っておきたい理由と方法 - 複数の判定機を組み合わせることでロバスト性を担保 - プロンプトと同等、またはそれ以上にLLMに入力するコンテキストが重要 <例>

@PRODUCT HISTORY CONFERENCE 2025 2025.09.18 LAPRAS株式会社CTO 興梠敬典 AIでユーザをガッカリさせないために怒らせないために
これでいかせてください LLMアプリケーションの品質向上のための設計とプロセスの工夫

題材となるサービス背景

https://lapras.com

題材となる機能背景

自社のサービスで自分をこんなふうに表現するのあh抵抗ありますが CTOなのだからこうあってくれよ、という圧力として受け取ることにしております

本編

何も考えずに作ると...? 職務経歴書情報プロンプト LLM レポート LLMのおかげで学習データ集めなくてもできるぜ！！的な

何も考えずに作ると... こうなりますよね (なりました@プロトタイピング時点) ただの要約？？書いたことがそのまま載っているだけやん納得感がない 😇 良いことばっかり盛りすぎ
スコアとの関連性は？そもそも気づかない言うことが毎回バラバラおもちゃ？一般論ばかり

どれくらい頑張る必要があるのか

責任の大きさの話 - 機能の位置付け次第今回の市場価値スコアのコメント機能のリリースは、これまでリリースした LLM を利用したアプリケーションと比較しても、一番不安が大きいです。ユーザーの書いた Qiita 記事をレビューするのと、ユーザーの市場価値スコア、もとい、Career ページに
入力されている情報ーつまりキャリアについてアドバイスするのとでは、プレッシャーの度合いが全然違います。開発者コメントキャリアや転職関係のサービスを運営しているLAPRASにとって、「ユーザのキャリアや転職市場での立ち位置についてコメントする」というのはとてもシリアスな領域転職市場についての有識者であり、ユーザの理解者でもあるという立ち位置から自信や気付きなど、価値をえることのできる総評を出力する必要がある ⇒ 責任は”大”

• インタラクティブな会話による LLM の利用 ◦ ChatGPT, Cursor, Claude Code などなど
◦ ユーザーが会話を通して理想の出力を得ようとする → 得られた出力を採用するか否かはユーザーの自己責任 • 一方通行の指示による LLM の利用 ◦ LAPRASの「記事 AI レビュー」「キャリア市場価値コメント」などはこちら ◦ 人による判断の介入ができない → AIの出力の責任が100%サービス提供側に ※こういった LLM アプリケーションを分類するときに、「Agent か否かではなく、どれくらい Agentic か (エージェントっぽいか) で判断すべき」、つまりグラデーションで判断すべき、という考え方がありますが、その両極端に位置するアプリケーションの両方を扱っている自分たちとしては、これらを区別したいため、このような呼び分けをしています。 —------- 厳密にはこのような二元論ではなくこの間のいずれかに位置します----------- 責任の所在の話 - LLMの利用方法による

この反対の例として MCPを例に出します

求人の検索職務経歴の更新

LAPRAS LAPRAS MCP 職務経歴なおして！こういう求人さがしてはいよ

めちゃめちゃ意識の低いキャリア相談を考えてみる (殴られそう ) 基本は働きたくなくて、そんなにチャレンジもしたくないしハードワークもしたくないんだよね。それなりに規模あって安定したところで余暇の時間はギターを弾いたりして過ごしたいんだけど、それを踏まえて良い求人ある？ AI台頭で吹き飛ばないくらいの規模がいいなぁ

※AIの見解です

公式としてこの体験はとても提供しづらいぶっちゃけレベルの温度感でのキャリア相談体験を提供する ... 敷居を下げるという意味で「あり」とも思いつつですが ...

検索条件生成解釈見解付与 LAPRAS 意識の低い要件意識の低い人に刺さる表現 LAPRAS MCP 普通の検索条件
普通の求人情報 (表現における)責任の壁真面目に利用するユーザもいる

公式としてこの体験もとても提供しづらい

検索条件生成解釈見解付与 LAPRAS スパルタにやってくれスパルタコメント LAPRAS MCP
普通の検索条件普通の求人情報 (表現における)責任の壁

MCPの特徴の一つ ※「使ったらデータが全部消えた」のような動作的な部分の担保は別の話サービスの出力結果のうち、 “表現”についての責任をユーザに預けることができる体験をユーザにカスタマイズしてもらえる責任の所在という要素は AI x プロダクトの提供形態を考える際の一つの要素になりそうです

もどります！

品質の担保プロセス的な工夫

◦ 品質の言語化 ▪ 「良い」の定義を具体的に定める ◦ 検証基盤の構築 ▪ 評価セットの作成: • 品質を測るための基準データを用意する
▪ Assertionの実装: • (特に)「当たり前品質」は自動チェックされるようにする ▪ ツールによる検証負荷軽減 • promptfoo等のツールを持ちいて定量的・客観的に評価しやすくする品質の担保 - プロセス的な工夫 3.0 = LLM時代でも本質は変わらないこの2つからはじめます

品質の言語化満たすべき／満たしたい「品質」を言語化できないということは... → 自分たちの実現したい機能の品質保証を LLM に「お任せ」している状態 → LLM の出力を制御できていないことと同義このコードおかしくない？
AIがやったところなので特にLLMでユーザ向けの文章を出力する際は • LLMの作文を受けてユーザーにどう行動してほしいか • どういう気持ちになってほしいか • どう心が動いてほしいかこれらを考慮してなるべく明瞭な指示を心掛けます

品質の言語化現在のLAPRASではシンプルに狩野モデルに則って、当たり前品質、一元的品質、魅力的品質を言語化しています出典：及川卓也「ソフトウェア開発は『狩野モデル』で「品質の本質」を見直せ」日経 BOOKプラス、2024年9月19日、https://bookplus.nikkei.com/atcl/column/090100409/090100004/ （最終閲覧日： 2025年9月17日）より、各種資料を基に作成
先々こちらもやっていくべきではあります

プロジェクト初期の議事録からの抜粋です 󰢛

- 特に人の感じ方に関わる機能ユーザインタビュー等を通じて体験を向上させていきたい - ただでさえLLMの出力は確率的なものである上に、頻繁にアップデートしながら構築していく必要がある - 運用段階でももちろん重要に - 将来的にモデルが利用できなくなることもある
検証基盤の構築最初に評価の仕組みを作り、これをベースに改善のサイクルをなるべく高速に回していく LLM登場以前から変わらないベストプラクティスと考えています CI/CDの整備と同様 → 理想の出力、過去の出力について比較・検証が可能な状態をつくっておく

評価セット出力を評価するためのデータとしてインプットと期待するアウトプットのデータセットを収集します。「10例でも良いので、まずはここからはじめよう」という考え方があります。実感としても同意するところが大きいと感じています。入力に対しての理想の出力を定義できる何よりの方法だと考えています。ラベリング・アノテーションはいまでも必要 <例> -
プロジェクト経験の文章 vs 抽出されるべき保有スキル - レポートのコメント vs ハイライトしたい部分 - 職務経歴書(PDFなど) vs 正しい抽出結果 ※評価指標は正解率だったり、ROUGE-Lだったり、課題に応じて選択しますスキル 300+ 種類 27,000件くらい

アサーション : 当たり前品質の担保 ◦ 主に当たり前品質については、アサーションを実装して自動でエラーを検知できるようにしつつ、本番実行時にもエラーとして落とすようにしています ▪ 主にPydantic の
validation の仕組みを利用しています ◦ 一元的品質以上については、それに違反したからと言って本番でエラーにしたくないため、ユニットテスト的なスクリプトを用意します

ツールによる検証負荷軽減 • オープンソースの LLM のテストツール • 複数のプロンプト x 複数のモデル x
複数のアサーションによるテスト結果を、 CLIやブラウザで一覧で確認することができる https://www.promptfoo.dev/ モデルやプロンプトごとの出力を記録しつつ、いい感じに比較できるUIも提供してくれるテストランナー的なもの一元的品質以上の内容は、定性的な評価がどうしても必要になるため、ツールを利用して負荷軽減を計っています

「プロンプトのこの指示をちょっと変えた場合に、各モデルの出力がどう変化するのか見てみたい...」のような期待に応えてくれます

promptfoo の良いところ情報を外部に送信せずに使える 👍 - オープンソースであり、実行はローカルなのでセルフホスティングが可能 - 個人情報だけでなくツールの利用状況等含めて完全プライベートにしたい場合は
PROMPTFOO_DISABLE_TELEMETRY オプションなども設定しておくとさらに安心

検証基盤の構築 - LLM 世代においても、機械学習モデルを自分たちで構築していたころと、やっていることはあまり変わらない - モデルの学習や学習セットを用意する必要はなくなったが「メトリクス、評価指標、評価セット、評価の仕組みを用意して、改善のサイクルを回す」ことは依然として必須 -
モデルの学習がプロンプトの改善に置き換わっただけ LLM登場以前から変わらないベストプラクティス(再) まず評価の仕組みを作り、これをベースに改善のサイクルをなるべく高速に回していく

品質の担保設計的な工夫

基本的にはこうなります書いたことがそのまま載っているだけ。ただの要約？？納得感がない 😇 良いことばっかり盛りすぎスコアとの関連性は？そもそも気づかない
言うことが毎回バラバラおもちゃ？一般論ばかり

何も考えずに作る...ではなく職務経歴書情報プロンプト LLM レポート

職務経歴市場価値スコア (市場での立ち位置 ) キャリア市場価値レポートの仕組み詳細スコア (強みの方向性 ) 推定保有スキル今後やりたいこと
以下(+α) 全てをコンテキストとして入力しています

キャリア市場価値レポートの仕組み : 市場価値スコアの算出 LAPRASの求人 LAPRASの求人からスキル要件を収集様々な職種から300+種類

キャリア市場価値レポートの仕組み : 市場価値スコアの算出 LAPRASの求人職務経歴情報各スキル要件にマッチするかをAIが判定（実際は0/1ではなくマッチ率で判定）

キャリア市場価値レポートの仕組み : 市場価値スコアの算出 LAPRASの求人職務経歴情報全体スコア詳細スコア企業からの注目度

LAPRASの求人職務経歴情報全体スコア詳細スコア企業からの注目度 • 弱い分類器 x 多数
→ 大数の法則で精度・ロバスト性を実現 • 求人で需要があるスキル要件で判定 → 実際の市場価値を反映した評価 • LAPRASユーザーの中での相対評価 → 転職市場の中での相対的な立ち位置の判定キャリア市場価値レポートの仕組み : 市場価値スコアの算出

職務経歴市場価値スコア (市場での立ち位置 ) キャリア市場価値レポートの仕組み詳細スコア (強みの方向性 ) 推定保有スキル今後やりたいこと
以下(+α) 全てをコンテキストとして入力しています

職務経歴市場価値スコアスコア (市場での立ち位置 ) キャリア市場価値レポートの仕組み詳細スコア (強みの方向性 ) 推定保有スキル今後やりたいこと
以下(+α) 全てをコンテキストとして入力していますプロンプトの工夫でこれを実現することはとても難しい (不可能に近い ) → プロンプトよりもコンテキスト情報で出力の性能が決まる個人の職務経歴情報に加えて、求人や市場の情報をインプットとすることによって「要約しただけ」「適当に当たり障りのないことを言っている」などの感触をぬぐい、転職市場の有識者としてのコメントが可能に

その他「言うことがコロコロ変わらないようにする」ための工夫として職務経歴に変更があった場合は変更箇所のみのスキル判定を再実行できるように、スキル判定の結果をデータソースと一緒に保存するなどの工夫もしています 1行変えたらスコアが二倍に!!?にならないように

まとめ

• 品質の言語化の重要性 ◦ 出力結果を論理的に担保しづらいからこそ事前に品質を言語化することが重要 • プロトタイプ&フィードバックプロセスの重要性 ◦ LLMで簡単にプロトタイプが作れるからこそ、早期に検証基盤を作り、素早くたくさん試すことが重要
◦ 評価セットは現在も変わらず必要(頑張る) • 適切なコンテキストの重要性 ◦ プロンプトよりもコンテキスト情報で出力の性能が決まる (プロンプトも大事です) まとめ(もとい学び)

@PRODUCT HISTORY CONFERENCE 2025 2025.09.18 LAPRAS株式会社CTO 興梠敬典 AIでユーザをガッカリさせないために怒らせないために
これでいかせてください LLMアプリケーションの品質向上のための設計とプロセスの工夫

AIでユーザを怒らせないために

AIでユーザを怒らせないために

More Decks by rocky

Other Decks in Technology

Featured

Transcript