Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
新規事業における「一部だけどコア」な AI精度改善の優先順位づけ
Search
Higuchi kokoro
January 27, 2026
Technology
700
0
Share
新規事業における「一部だけどコア」な AI精度改善の優先順位づけ
ML/DSバックグラウンドだからこそ面白い。AIエージェントをプロダクトに実装する、泥臭い裏側と挑戦
Higuchi kokoro
January 27, 2026
More Decks by Higuchi kokoro
See All by Higuchi kokoro
普段使ってるClaude Skillsの紹介(by Notebooklm)
zerebom
9
3.3k
曖昧なLLMの出力をプロダクト価値へつなげる、要求の具体化と評価
zerebom
4
700
PMとしてLLMと上手くプロダクトを作るための抽象度レイヤーの設計
zerebom
3
1.2k
PMになって痛感した未知の未知とその対策
zerebom
1
610
Pythonによるネットワーク分析の基礎とコミュニティサクセスへの応用
zerebom
4
1.6k
Polarsの成長: v0.14からv1.0までの変遷と今後の展望
zerebom
1
1.2k
ダッシュボードを使ってもらうには、 現場へのヒアリングが重要だと 改めて気づいた話
zerebom
5
2.2k
非同期処理でLLMにもっと働いてもらおう
zerebom
2
2.3k
使い回しやすい 2-stage recommender systemの デザインパターンを考えて実装した話
zerebom
3
2.3k
Other Decks in Technology
See All in Technology
DevOpsDays Tokyo 2026 見えない開発現場を、見える投資に変える
rojoudotcom
3
200
扱える不確実性を増やしていく - スタートアップEMが考える「任せ方」
kadoppe
0
140
CDK Insightsで見る、AIによるCDKコード静的解析(+AI解析)
k_adachi_01
2
170
Revisiting [CLS] and Patch Token Interaction in Vision Transformers
yu4u
0
300
EarthCopilotに学ぶマルチエージェントオーケストレーション
nakasho
0
240
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
4
23k
暗黙知について一歩踏み込んで考える - 暗黙知の4タイプと暗黙考・暗黙動へ
masayamoriofficial
0
1.8k
AIエージェントを構築して感じた、AI時代のCDKとの向き合い方
smt7174
1
250
Spring I/O 2026: Durable, Observabable and Testable Spring AI Applications
salaboy
0
100
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
3k
MLOps導入のための組織作りの第一歩
akasan
0
280
みんなの「データ活用」を支えるストレージ担当から持ち込むAWS活用/コミュニティー設計TIPS 10選~「作れる」より、「続けられる」設計へ~
yoshiki0705
0
210
Featured
See All Featured
The Curious Case for Waylosing
cassininazir
0
300
Making the Leap to Tech Lead
cromwellryan
135
9.8k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
340
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
320
Building Applications with DynamoDB
mza
96
7k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Designing for humans not robots
tammielis
254
26k
Paper Plane (Part 1)
katiecoart
PRO
0
6.6k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.1k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
190
Transcript
新規事業における「一部だけどコア」な の優先順位づけ AI精度 Kokoro Higuchi ML/DSバックグラウンドだからこそ面白い。AIエージェントをプロダクトに実装する、泥臭い裏側と挑戦 2026/01/27 2026 | ©
Commune Inc. All rights reserved
Wantedlyのデータサイエンティスト 推薦システムの改善・実装 コミューンのデータサイエンティスト コミュニティのデータ分析・AIを使った社内業務支援 コミューンのプロダクトマネージャー 新規事業 Commune Voiceの立ち上げ 自己紹介 樋口
心 /@zerebom_3 コミューン株式会社 Product Manager / Data Scientist 2 / 35
プロダクト紹介 3 / 35
プロダクト紹介 Commune Voiceについて どんな製品か コミュニティやSNSに寄せられた 膨大なユーザーの声を生成AIを活用して 分析出来るサービス できること 大量の声から事業改善につながる 課題や期待を抽出し、深い顧客理解ができる
4 / 35
プロダクト紹介 Commune Voiceについて 5 / 35
Voiceで採用しているトピックの生成(今回話すAI精度の題材) 大量のVoCを意味でまとめ、短時間での理解と、比較を可能に 6 / 35
プロダクトのイメージ 全文を読まずに、 どんな声が 届いているか 定量的に 理解できる 7 / 35
AIと事業の優先順位 8 / 35
新規事業でAIを組み込んだプロダクト開発をすることになった! 元DSとして、AIを活用したVoCの理解を実現するためにまず考えたくなったこと どうやったらタスク (VoC理解のためのタグ付与)を解けるか モデルの入出力は何にするか どうやったら精度はあがるか どんなプロンプトにするか どのモデルプロバイダーを使うか... 9 /
35
しかし、AIの本番運用において、精度やコードベースは一部 MLシステムと同様に、モニタリング、パイプラインのマネジメントなど考慮点が多数ある 10 / 35 D. Sculley et al., Hidden
Technical Debt in ML Systems, NeurIPS 2015.
さらに、AIの本番運用すら、事業全体から見たらごく一部 どのように実現するかのHow以前に、誰をどんな状態にしたいか決めないといけない D. Sculley et al., Hidden Technical Debt in
ML Systems, NeurIPS 2015. 11 / 35 及川 卓也; 小城 久美子; 曽根原 春樹. プロダクトマネジメントのすべて 事業戦略・IT開発・UXデザイン・マーケティングからチーム・組織運営まで
AIでタスクを精度高く解けても それは事業の一部 他にも考えるべきことが多くある 12 / 35
AIの活用や精度改善は 事業の一部にすぎないのであれば、 優先度も後回しで良いのか? 13 / 35
No → AIの精度や技術インフラは依然として重要 AI活用でハイパフォーマンスな企業はそうでない企業に比べ Human in the Loop, テクノロジーインフラなどを推進している 14
/ 35 https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai#
No → VoiceにおいてAI活用(トピックの付与)は価値提供のコア 15 / 35 VoCから示唆を出し、意思決定に繋げるには 必要な声に素早くたどり着くための要約・定量化が必要
Commune Voiceにおいて 「一部だけど必須なコア要素」 と言えそう AI精度は 16 / 35
新規事業において「一部だけどコア」な どう優先順位づけて 進めれば良いのか? AI精度は 17 / 35
いきなり作り込み過ぎない。まず売れるかを確かめる 市場の不確実性を減らさないと手戻りが大きい 要求を理解しながら、本当に作れるか確かめる 徐々に改善し続けられる仕組みを育てる AIの精度は一度に良くならないので改善の基盤を作る 手動、デモアプリ、本番実装と、徐々にコストをかけ検証 新規事業における「一部だけどコア」なAI精度の優先順位づけ 18 / 35
いきなり作り込み過ぎない。まず売れるかを確かめる 作るには時間がかかるのでまず市場の不確実性を削減。技術不確実性の解消は徐々に解消。 19 / 35 売れるのか? 作れるのか?
要求を理解しながら、本当に作れるか確かめる フィットジャーニーを進めながら、その各段階で精度改善できる準備を進めていく 必要な精度と スケーラビリティ 事業の不確実性 20 / 35
徐々に改善し続けられる仕組みを育てる 精度改善には継続的な取り組み・技術基盤が必要なので、 併せてAI側の仕込みを進める 21 / 35
Commune Voiceにおける と の両輪 価値の検証 AI精度改善 22 / 35
CPF:業務フローを聞き、課題の存在と濃さを理解する 広くVoC分析をしている/したい人に業務を聞きに行く CPF = Customer Problem Fit (顧客の課題が存在するか確認するフェーズ) 23 /
35
CPF:業務フローの解像度を高めながら、AIを活用するための情報を仕入れる 課題の存在を確かめつつ、現状がどんなプロセス・入出力になっているか聞く CPF = Customer Problem Fit (顧客の課題が存在するか確認するフェーズ) 入力: ユーザーは日頃、何を見ているのか?
手順: どういう切り口・軸で分析している? 出力: 誰に、どういう形式で報告している? コスト: 日々の分析にどれくらい時間や労力をかけている? etc.. 24 / 35
PSF:人の業務のどこをプロダクト化できるとスケールするか考える 人力でやっているフローやその時の思考を洗い出し プロダクト・AIで代替すべき場所を見つける PSF = Problem Solution Fit (課題を解決出来るか確認するフェーズ) 25
/ 35
PSF:人力で「精度」と「価値」を測る 実際に手でエクセルにまとめる、Notebookで可視化するなど 手動でレポートをつくり、どんな形なら価値につながるのか検証する PSF = Problem Solution Fit (課題を解決出来るか確認するフェーズ) 26
/ 35
SPF:捨てられるコードで「精度」と「実現可能性」を検証する Streamlitなどのデモツールで、高速に価値を生めるか検証する SPF = Solution Product Fit (解決策がプロダクトとして実装できるか確認するフェーズ) 27 /
35
Commune Voiceにおける プロダクトの開発とAI精度改善の両輪 28 / 35
PMF:スケール出来るように改善方針を評価指標でピン止め 評価指標を定義・計測し、行き当たりばったりの改善にならないようにする PMF = Product Market Fit (プロダクトが市場に受け入れられたかを確認するフェーズ) 29 /
35
トピック品質の精度 名前の形・表記の適切さ スタイルガイドを守れているか (ex. 文体・文字数・NGワード) 原文忠実さ 元の声の内容と矛盾していないか (ハルシネーションがないか) ビジネス上の有用性 事業者にとってアクションのヒン
トになるか 論点カバー率 VoCから抽出するべき論点が抜け もれなくトピックになっているか トピックへの要求を評価に落とし込む 生成されたトピックが事業成果につながるものになっているか確認する 30 / 35
トピックの生成 これまでの実験結果を基に パラメータやモデルを調整し、トピックを生成する 定量評価 定量的な指標による実験結果の確認。 実験がうまくいっているかを機械的に比較 定性評価 トピックをUIに近い形で確認。 指標に現れない違和感がないかをチェック 分析と改善
評価結果から改善点を特定し、 精度改善に生かす 指標に基づく短いフィードバックループを回し続ける 評価指標を短いスパンで何度も計測し、改善することで事業に使える形にする 31 / 35
リリース前にLLMで評価(LLM as a Judge)し、チューニングする 生成したトピックを自動評価する仕組みを作り、複数の実験を比較する 生成されたトピックを入力に評価値を出力するスクリプトを実装 スプレッドシートで比較出来るようにcsvで出力する 32 / 35
本番品質のトピックを提供出来るようにLLMOpsパイプラインも整備 33 / 35 ワークフローエンジンを活用し、AIパイプラインの安定性・監視性を担保
(Future Work) VoiceにおけるAI Agentの開発 トピックの生成により分析が容易になり開発の土壌ができた 示唆だしなどの自動化に取り組む予定 34 / 35
いきなり作り込み過ぎない。まず売れるかを確かめる 市場の不確実性を減らさないと手戻りが大きい 要求を理解しながら、本当に作れるか確かめる 徐々に改善し続けられる仕組みを育てる AIの精度は一度に良くならないので改善の基盤を作る 手動、デモアプリ、本番実装と、徐々にコストをかけ検証 新規事業における「一部だけどコア」なAI精度の優先順位づけ 35 / 35