Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
新規事業における「一部だけどコア」な AI精度改善の優先順位づけ
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Higuchi kokoro
January 27, 2026
Technology
0
72
新規事業における「一部だけどコア」な AI精度改善の優先順位づけ
ML/DSバックグラウンドだからこそ面白い。AIエージェントをプロダクトに実装する、泥臭い裏側と挑戦
Higuchi kokoro
January 27, 2026
Tweet
Share
More Decks by Higuchi kokoro
See All by Higuchi kokoro
普段使ってるClaude Skillsの紹介(by Notebooklm)
zerebom
9
2.9k
曖昧なLLMの出力をプロダクト価値へつなげる、要求の具体化と評価
zerebom
4
600
PMとしてLLMと上手くプロダクトを作るための抽象度レイヤーの設計
zerebom
3
1.1k
PMになって痛感した未知の未知とその対策
zerebom
1
560
Pythonによるネットワーク分析の基礎とコミュニティサクセスへの応用
zerebom
4
1.5k
Polarsの成長: v0.14からv1.0までの変遷と今後の展望
zerebom
1
1.1k
ダッシュボードを使ってもらうには、 現場へのヒアリングが重要だと 改めて気づいた話
zerebom
5
2.1k
非同期処理でLLMにもっと働いてもらおう
zerebom
2
2.2k
使い回しやすい 2-stage recommender systemの デザインパターンを考えて実装した話
zerebom
3
2.2k
Other Decks in Technology
See All in Technology
CodeRabbit CLI + Claude Codeの連携について
oikon48
1
640
AI時代にあわせたQA組織戦略
masamiyajiri
4
2k
Amazon Bedrock AgentCore EvaluationsでAIエージェントを評価してみよう!
yuu551
0
140
The Engineer with a Three-Year Cycle
e99h2121
0
160
みんなでAI上手ピーポーになろう! / Let’s All Get AI-Savvy!
kaminashi
0
210
Oracle Cloud Infrastructure:2026年1月度サービス・アップデート
oracle4engineer
PRO
0
110
全員が「作り手」になる。職能の壁を溶かすプロトタイプ開発。
hokuo
1
520
Riverpod3.xで実現する実践的UI実装
fumiyasac0921
2
330
一番人に近いコードレビューア CodeRabbit
kinopeee
0
110
【Oracle Cloud ウェビナー】ランサムウェアが突く「侵入の隙」とバックアップの「死角」 ~ 過去の教訓に学ぶ — 侵入前提の防御とデータ保護 ~
oracle4engineer
PRO
2
210
Zephyr RTOS の発表をOpen Source Summit Japan 2025で行った件
iotengineer22
0
250
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
10k
Featured
See All Featured
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
130
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
110
Git: the NoSQL Database
bkeepers
PRO
432
66k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
69
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
100
KATA
mclloyd
PRO
33
15k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
52k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
0
1.8k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Documentation Writing (for coders)
carmenintech
77
5.2k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
46
Getting science done with accelerated Python computing platforms
jacobtomlinson
1
100
Transcript
新規事業における「一部だけどコア」な の優先順位づけ AI精度 Kokoro Higuchi ML/DSバックグラウンドだからこそ面白い。AIエージェントをプロダクトに実装する、泥臭い裏側と挑戦 2026/01/27 2026 | ©
Commune Inc. All rights reserved
Wantedlyのデータサイエンティスト 推薦システムの改善・実装 コミューンのデータサイエンティスト コミュニティのデータ分析・AIを使った社内業務支援 コミューンのプロダクトマネージャー 新規事業 Commune Voiceの立ち上げ 自己紹介 樋口
心 /@zerebom_3 コミューン株式会社 Product Manager / Data Scientist 2 / 35
プロダクト紹介 3 / 35
プロダクト紹介 Commune Voiceについて どんな製品か コミュニティやSNSに寄せられた 膨大なユーザーの声を生成AIを活用して 分析出来るサービス できること 大量の声から事業改善につながる 課題や期待を抽出し、深い顧客理解ができる
4 / 35
プロダクト紹介 Commune Voiceについて 5 / 35
Voiceで採用しているトピックの生成(今回話すAI精度の題材) 大量のVoCを意味でまとめ、短時間での理解と、比較を可能に 6 / 35
プロダクトのイメージ 全文を読まずに、 どんな声が 届いているか 定量的に 理解できる 7 / 35
AIと事業の優先順位 8 / 35
新規事業でAIを組み込んだプロダクト開発をすることになった! 元DSとして、AIを活用したVoCの理解を実現するためにまず考えたくなったこと どうやったらタスク (VoC理解のためのタグ付与)を解けるか モデルの入出力は何にするか どうやったら精度はあがるか どんなプロンプトにするか どのモデルプロバイダーを使うか... 9 /
35
しかし、AIの本番運用において、精度やコードベースは一部 MLシステムと同様に、モニタリング、パイプラインのマネジメントなど考慮点が多数ある 10 / 35 D. Sculley et al., Hidden
Technical Debt in ML Systems, NeurIPS 2015.
さらに、AIの本番運用すら、事業全体から見たらごく一部 どのように実現するかのHow以前に、誰をどんな状態にしたいか決めないといけない D. Sculley et al., Hidden Technical Debt in
ML Systems, NeurIPS 2015. 11 / 35 及川 卓也; 小城 久美子; 曽根原 春樹. プロダクトマネジメントのすべて 事業戦略・IT開発・UXデザイン・マーケティングからチーム・組織運営まで
AIでタスクを精度高く解けても それは事業の一部 他にも考えるべきことが多くある 12 / 35
AIの活用や精度改善は 事業の一部にすぎないのであれば、 優先度も後回しで良いのか? 13 / 35
No → AIの精度や技術インフラは依然として重要 AI活用でハイパフォーマンスな企業はそうでない企業に比べ Human in the Loop, テクノロジーインフラなどを推進している 14
/ 35 https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai#
No → VoiceにおいてAI活用(トピックの付与)は価値提供のコア 15 / 35 VoCから示唆を出し、意思決定に繋げるには 必要な声に素早くたどり着くための要約・定量化が必要
Commune Voiceにおいて 「一部だけど必須なコア要素」 と言えそう AI精度は 16 / 35
新規事業において「一部だけどコア」な どう優先順位づけて 進めれば良いのか? AI精度は 17 / 35
いきなり作り込み過ぎない。まず売れるかを確かめる 市場の不確実性を減らさないと手戻りが大きい 要求を理解しながら、本当に作れるか確かめる 徐々に改善し続けられる仕組みを育てる AIの精度は一度に良くならないので改善の基盤を作る 手動、デモアプリ、本番実装と、徐々にコストをかけ検証 新規事業における「一部だけどコア」なAI精度の優先順位づけ 18 / 35
いきなり作り込み過ぎない。まず売れるかを確かめる 作るには時間がかかるのでまず市場の不確実性を削減。技術不確実性の解消は徐々に解消。 19 / 35 売れるのか? 作れるのか?
要求を理解しながら、本当に作れるか確かめる フィットジャーニーを進めながら、その各段階で精度改善できる準備を進めていく 必要な精度と スケーラビリティ 事業の不確実性 20 / 35
徐々に改善し続けられる仕組みを育てる 精度改善には継続的な取り組み・技術基盤が必要なので、 併せてAI側の仕込みを進める 21 / 35
Commune Voiceにおける と の両輪 価値の検証 AI精度改善 22 / 35
CPF:業務フローを聞き、課題の存在と濃さを理解する 広くVoC分析をしている/したい人に業務を聞きに行く CPF = Customer Problem Fit (顧客の課題が存在するか確認するフェーズ) 23 /
35
CPF:業務フローの解像度を高めながら、AIを活用するための情報を仕入れる 課題の存在を確かめつつ、現状がどんなプロセス・入出力になっているか聞く CPF = Customer Problem Fit (顧客の課題が存在するか確認するフェーズ) 入力: ユーザーは日頃、何を見ているのか?
手順: どういう切り口・軸で分析している? 出力: 誰に、どういう形式で報告している? コスト: 日々の分析にどれくらい時間や労力をかけている? etc.. 24 / 35
PSF:人の業務のどこをプロダクト化できるとスケールするか考える 人力でやっているフローやその時の思考を洗い出し プロダクト・AIで代替すべき場所を見つける PSF = Problem Solution Fit (課題を解決出来るか確認するフェーズ) 25
/ 35
PSF:人力で「精度」と「価値」を測る 実際に手でエクセルにまとめる、Notebookで可視化するなど 手動でレポートをつくり、どんな形なら価値につながるのか検証する PSF = Problem Solution Fit (課題を解決出来るか確認するフェーズ) 26
/ 35
SPF:捨てられるコードで「精度」と「実現可能性」を検証する Streamlitなどのデモツールで、高速に価値を生めるか検証する SPF = Solution Product Fit (解決策がプロダクトとして実装できるか確認するフェーズ) 27 /
35
Commune Voiceにおける プロダクトの開発とAI精度改善の両輪 28 / 35
PMF:スケール出来るように改善方針を評価指標でピン止め 評価指標を定義・計測し、行き当たりばったりの改善にならないようにする PMF = Product Market Fit (プロダクトが市場に受け入れられたかを確認するフェーズ) 29 /
35
トピック品質の精度 名前の形・表記の適切さ スタイルガイドを守れているか (ex. 文体・文字数・NGワード) 原文忠実さ 元の声の内容と矛盾していないか (ハルシネーションがないか) ビジネス上の有用性 事業者にとってアクションのヒン
トになるか 論点カバー率 VoCから抽出するべき論点が抜け もれなくトピックになっているか トピックへの要求を評価に落とし込む 生成されたトピックが事業成果につながるものになっているか確認する 30 / 35
トピックの生成 これまでの実験結果を基に パラメータやモデルを調整し、トピックを生成する 定量評価 定量的な指標による実験結果の確認。 実験がうまくいっているかを機械的に比較 定性評価 トピックをUIに近い形で確認。 指標に現れない違和感がないかをチェック 分析と改善
評価結果から改善点を特定し、 精度改善に生かす 指標に基づく短いフィードバックループを回し続ける 評価指標を短いスパンで何度も計測し、改善することで事業に使える形にする 31 / 35
リリース前にLLMで評価(LLM as a Judge)し、チューニングする 生成したトピックを自動評価する仕組みを作り、複数の実験を比較する 生成されたトピックを入力に評価値を出力するスクリプトを実装 スプレッドシートで比較出来るようにcsvで出力する 32 / 35
本番品質のトピックを提供出来るようにLLMOpsパイプラインも整備 33 / 35 ワークフローエンジンを活用し、AIパイプラインの安定性・監視性を担保
(Future Work) VoiceにおけるAI Agentの開発 トピックの生成により分析が容易になり開発の土壌ができた 示唆だしなどの自動化に取り組む予定 34 / 35
いきなり作り込み過ぎない。まず売れるかを確かめる 市場の不確実性を減らさないと手戻りが大きい 要求を理解しながら、本当に作れるか確かめる 徐々に改善し続けられる仕組みを育てる AIの精度は一度に良くならないので改善の基盤を作る 手動、デモアプリ、本番実装と、徐々にコストをかけ検証 新規事業における「一部だけどコア」なAI精度の優先順位づけ 35 / 35