Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B to Cサービスの現場から考える機械学習活用 #MLCT
Search
ysekky
August 26, 2014
Research
9.5k
8
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
B to Cサービスの現場から考える機械学習活用 #MLCT
ysekky
August 26, 2014
More Decks by ysekky
See All by ysekky
スタートアップの開発サイクルに学ぶ 研究活動の進め方 / research practices inspired by startup business strategy
ysekky
0
2.4k
[論文紹介] A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys2020) / recsys20-reading-gunosy-datapub
ysekky
3
2.9k
JSAI2020 OS-12 広告とAI オープニング / JSAI2020-OS-12-ads-and-ai-opening
ysekky
0
2.2k
JSAI2020インダストリアルセッション - Gunosyにおける研究開発 / jsai2020-gunosy-rd-examples
ysekky
1
830
ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy
ysekky
0
3k
Gunosyにおけるニュース記事推薦/ news-recommendation-in-gunosy-webdbf2019
ysekky
1
1.6k
DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research
ysekky
0
1.3k
Analysis of Bias in Gathering Information Between User Attributes in News Application (ABCCS 2018)
ysekky
1
2.5k
世代による政治ニュース記事の閲覧傾向の違いの分析 - JSAI2018 / Analysis of differences in viewing behavior of politics news by age
ysekky
0
4.1k
Other Decks in Research
See All in Research
人間中心の意思決定支援AI
yukinobaba
PRO
6
2.8k
「AIとWhyを深堀る」をAIと深堀る
iflection
0
490
Sequences of Logits Reveal the Low Rank Structure of Language Models
sansantech
PRO
1
260
羽田新ルート運用6年の検証
1manken
0
160
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
280
PGDM: Physically Guided Diffusion Model for L Downscaling
satai
2
280
LLM の Attention 機構まとめ — 数式・計算量・メモリ
puwaer
8
2.1k
CVPR2026論文紹介_VLMにとって良いvision encoderとは何か?Rethinking Model Selection in VLM Through the Lens of Gromov-Wasserstein Distance
kobayashi31
1
130
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
640
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
470
敵対生成プロンプト同時探索による内省型プロンプト最適化
kinoue_smarthr
0
200
データセンター事業者を取り巻く近年の状況とその中での研究開発動向、テストベッドへの貢献の可能性
kikuzo
1
190
Featured
See All Featured
The SEO identity crisis: Don't let AI make you average
varn
0
490
A Soul's Torment
seathinner
6
2.9k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.9k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
200
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
310
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
The Curious Case for Waylosing
cassininazir
1
390
Facilitating Awesome Meetings
lara
57
7k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Transcript
B to Cサービスの現場から 考える機械学習活用 Yoshifumi Seki (Gunosy Inc) 2014.08.26 Machine
Learning Casual Talks #2
自己紹介 • 関 喜史 (Seki Yoshifumi) • 株式会社Gunosy 共同創業者 •
東京大学大学院博士後期課程在学中 • 専門 • コンテンツ評価・推薦システム・ユーザ行動分析
今日の話 機械学習×KPI 学術研究における評価とB to Cサービスにおける評価 グノシーにおける機械学習の導入・運用 学術知識の導入と活用
グノシー 累計500万DLのニュースアプリ • 2011年秋に東京大学の学生3人によりリリース • 3人ともデータマイニング関係の研究室に所属 • 興味にあったニュースを一日25記事配信するサービス • 2012年11月法人化
• 2014年3月にTVCM放送開始 • 合わせてアプリを大きくリニューアル • 「3分で旬のニュースをまとめ読み」
情報を世界中の人に最適に届ける
最適に届けるということ • スマートフォンの普及 • 新聞・雑誌・PCと全くことなるインタフェース • タイトルの重要性 • アクセシビリティ・回線スピード •
室内外問わないインターネットへの接続 • 情報流通量の増大 • 大手メディアのネット参入 • ブログの一般コンテンツ化 • キュレーションサイト・バイラルメディアなどの隆盛 • 興味の多様化
グノシーの機械学習タスク たくさんのURL 同一記事判定 カテゴリ推定 クオリティ予測 ユーザCTR予測 etc… 少数のURL
基本的な考え方 機械が得意なところは機械にやらせる 人が得意なところは人がやる
それぞれが得意なこと • 機械が得意なこと • 大量のデータを処理すること • 24時間働き続けること • 数値データから素早く意思決定をすること •
判断基準がすでに与えられている前提 • 人が得意なこと • 仮説を立てること • 人の気持ちを理解すること(対機械比) • ニュアンスを読み取ること
B to Cサービスでの課題 • 学術研究では過去のデータをいかに再現できるかを見る • Ex. 3年間の購買データを最初の1年のデータを使ってどれだけ再現で きたか •
機械学習が組み込まれる前とあとでユーザの行動は変わる • データセットによる検証によって成果を見積もることが困難 • 精度があがっても実際にユーザに刺さるかは別問題 • 重要なのはユーザの満足度 • 全体の予測性能より、カバレッジが影響する可能性もある • タスクによって変わる.あんまり予測できない • ユーザ層が変わればモデルが変わる. • サービスの成長に合わせてモデルが通用しなくなることがままある アカデミックでの評価がそのまま役に立つわけではない
タスクの進め方 1. 目標設定 2. 仮説立案 3. 簡易な実験 4. モデル実装・自動化 数値は神より正しい
1. 目標設定 • 改善目標となる数値をきめる • DAU/WAUだったりとか • N日後継続率だったりとか • Click/DAUだったりとか
• これを決めておかないとあとからいろいろ言い訳が効く • 「いやこんな側面もあるんですよ」 • 「こういう風に見ればいいところもあります」とか • タスクの優先順位をここから決める
2. 仮説立案 • その目標値を上げるための仮説 • 仮説なきモデル実装はやってはいけない • 「とりあえずこのモデル精度いいらしいから試そうよ〜」 • それはなぜ精度があがるのか?その上がる理由は自社が抱える課題と一致
しているのか • 精度があがって目標数値は上がるのか? • 仮説が正しかった場合,どの数値にどのような変化が生まれる のか • 成果がでなかったとき施策が間違っていたのか、仮説が間違っていた のかを知らなければならない • 成功・失敗は運だが、それは結果を正しく認識して試行を繰り返してこそ 意味がある
3. 簡易な実験 • ルールベース・人力などによって有効性を確認する • ルールや人力でやって成果がでないケースで機械学習で成果がでるこ とはあまりない • ルールをかけないのであればそれは仮説が詰め切れていな い
• 「機械学習使えばなんとか出来るだろ」は基本幻想 • 有効なFeatureは一般にそれ単体でも有効 • 数値の変化と仮説との比較
4. モデル実装・自動化 • ルールベース・人力で有効性が確認されたらモデル化・自動 化をすすめる • ここでやっと機械学習感でてくる • すべてをモデル化することを考えるのではなく効率のいいポイ ントを考える
• Ex. 人手を全部置き換えるのでなくある程度の絞込みを行う • サービスの改善によって重要なポイントが変わってくるため, それに対応しやすい形が理想 • 複雑なモデルはサービスの変化に対してついていけるのか? • この改善ポイントは複雑なモデルを組む価値はあるか • 基本的にモデルの解釈性と精度はトレードオフだったりする • 個人的にはなるだけ解釈性を高くしておきたいと考えている
進め方 • やる/やらないのジャッジはほとんどない • 小規模にやってみて数値をみながら拡大していく • そのためにも事前の目標数値設計が重要 • どれぐらい上がるかとかは正直わかんないので、どの数値を上げたいかぐら いの見積もり
• どれをやるかを考えている暇があったら全部やってみようぜという感じ • 施策が当たるか当たらないかは運。結果から学ぶ。 • 技術ありきでは考えない • ルールや人手であってもよくなるならやる • スケールするためには機械学習等が必要なのでやる
リスク管理 • ユーザが変わればモデルも変わる • 成長するサービスが立ち向かわなければいけない課題 • 成功体験にとらわれ過ぎないことが大事 • これは機械も人間も一緒 •
モデルの導入によって大きく下がったりする • 教師データ不足とかカバレッジ不足 • これまでと体験が変わること • 事前にはなかなか予測しにくい • 下がることがあることを踏まえてテストを実施する • 既存の体験を大きく変わるような変更は避ける • デザインなどもそうだが,機械学習の場合はコントロールしにくいので注 意する必要がある
学術知識の利活用 • いま何ができるようになっているかを知る • どのような考え方が成功しているかを知る • 流行りの勝ちパターンがある. • そのパターンは転用できることが多い •
手法の精度や結果より,なぜその手法を用いることの優位性 があるのかに注目する • その優位性が自分のサービスの課題を解決するものなのかを考える • そのモデルによってデータをどのように解釈することが可能になったの か? • これを理解してないと活用するのは難しい • 機械学習応用系の学会は参考になるのが多い • WWW, KDD, WSDMなど • 自分で使ったことがないと活用イメージわかない
まとめ • B to C向けの機械学習活用は学術研究とのギャップが大きい • B to Cは精度が目的ではなく、ユーザの満足度が目的 •
PrecisionやRecallではその結果は測れない • 上記指標でみているのは再現度 • 既存の体験 • リスクを把握した上で実サービス上で試していく姿勢が大事 • 実装コストが高いことが多いため、仮説ベースからルールや人力運用を 経由するのがよいと考える • リーンスタートアップにおけるMVP的な考え方 • ルールや人力運用が考慮できない場合はそもそもなにを目的として機 械学習を活用したいのかを考えるべき • 論文などを通してデータ活用の考え方は学ぶべき • 実務活用するために普段からいろんな手法を使っていること が重要
機械学習 × KPI • 機械学習だからって特別なことはそうない • アカデミック側の評価基準にとらわれないことが大事 • 大事なのはユーザをよりよくすること •
仮説をもってKPIを設計して取り組む • 実行する前にユーザの行動がどうなるか想像できるかどうかが重要 • サービスの拡大に対して断続的な改善を行う方法はまだ未知 かも • 新規ユーザの動向にはしっかり目を配る • 獲得チャネルとか、広告の訴求によって流入ユーザの行動傾向は大き く変わる.
宣伝 • グノシーでは一緒に働く仲間を募集しています! • クライアント・アドサーバ・ウェブ・データ解析 • “数値は神より正しい”に共感するみなさんぜひ! • データマイニングに関する勉強会を開催しています •
隔週で火曜日19:00 ~ • 次回は9/4 • 論文紹介 • 書籍輪読 • 次回: 「データ解析のための統計モデリング入門」 4章