Upgrade to Pro — share decks privately, control downloads, hide ads and more …

新規事業における「一部だけどコア」な
AI精度改善の優先順位づけ

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 新規事業における「一部だけどコア」な
AI精度改善の優先順位づけ

ML/DSバックグラウンドだからこそ面白い。AIエージェントをプロダクトに実装する、泥臭い裏側と挑戦

Avatar for Higuchi kokoro

Higuchi kokoro

January 27, 2026
Tweet

More Decks by Higuchi kokoro

Other Decks in Technology

Transcript

  1. さらに、AIの本番運用すら、事業全体から見たらごく一部 どのように実現するかのHow以前に、誰をどんな状態にしたいか決めないといけない D. Sculley et al., Hidden Technical Debt in

    ML Systems, 
 NeurIPS 2015. 11 / 35 及川 卓也; 小城 久美子; 曽根原 春樹. 
 プロダクトマネジメントのすべて 事業戦略・IT開発・UXデザイン・マーケティングからチーム・組織運営まで
  2. トピック品質の精度 名前の形・表記の適切さ スタイルガイドを守れているか (ex. 文体・文字数・NGワード) 原文忠実さ 元の声の内容と矛盾していないか
 (ハルシネーションがないか) ビジネス上の有用性 事業者にとってアクションのヒン

    トになるか 論点カバー率 VoCから抽出するべき論点が抜け もれなくトピックになっているか トピックへの要求を評価に落とし込む 生成されたトピックが事業成果につながるものになっているか確認する 30 / 35
  3. トピックの生成 これまでの実験結果を基に
 パラメータやモデルを調整し、トピックを生成する 定量評価 定量的な指標による実験結果の確認。
 実験がうまくいっているかを機械的に比較 定性評価 トピックをUIに近い形で確認。
 指標に現れない違和感がないかをチェック 分析と改善

    評価結果から改善点を特定し、
 精度改善に生かす 指標に基づく短いフィードバックループを回し続ける 評価指標を短いスパンで何度も計測し、改善することで事業に使える形にする 31 / 35