Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習タスクを始める前に
Search
Masa
April 10, 2019
Business
14
5.6k
機械学習タスクを始める前に
プライベートの新社会人向け勉強会にて
一部修正後up
データ分析屋さんにこれからなる皆様へ
Masa
April 10, 2019
Tweet
Share
More Decks by Masa
See All by Masa
Quick introduction to CounterFactual Regression (CFR)
masa_asa
0
1.4k
[blog用] Comparison of Estimation Methods in Causal Inference
masa_asa
0
180
DMLDiD
masa_asa
0
1.6k
Pythonで学ぶSynthetic Difference in Differences
masa_asa
0
3.4k
[勉強会資料メモ] Double/Debiased ML
masa_asa
1
2k
勉強会準備資料備忘:causal forest & r-learner
masa_asa
6
6.1k
LT資料_knowledge ~蒸留・モデル圧縮・そしてKT~
masa_asa
1
1.1k
Other Decks in Business
See All in Business
鳥取最上インクス/ 求職者向け会社紹介
oneterasu
0
150
Amazon 流のプロダクトマネジメント @ Product DeepLive 会場 + 懇親会スポンサーセッション
icoxfog417
3
380
会社紹介資料
ldf_tech
0
180
株式会社スタメン プロダクト職種向け会社紹介資料 / for-Product
stmn
0
1.4k
TOKYOスマート・カルチャー・プロジェクト
tokyo_metropolitan_gov_digital_hr
0
440
プロダクトの大事なこと全部書く 〜わかりあいのワークショップ〜
watasuke
0
280
VISASQ: ABOUT DEV TEAM
eikohashiba
3
20k
会社案内資料
mkengineering
1
110
マネージャーとエンジニアが効果的に協力するために意識した方が良い事
kotominaga
2
120
私のスクラムフェスの歩き方
rakuraku0615
0
310
FABRIC TOKYO会社紹介資料 / We are hiring(2024年10月23日更新)
yuichirom
31
270k
サスメド株式会社 Culture Deck
susmed
0
36k
Featured
See All Featured
GraphQLの誤解/rethinking-graphql
sonatard
66
9.9k
Testing 201, or: Great Expectations
jmmastey
38
7k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
Art, The Web, and Tiny UX
lynnandtonic
296
20k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
167
49k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Optimising Largest Contentful Paint
csswizardry
33
2.9k
Code Reviewing Like a Champion
maltzj
519
39k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
4
290
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
The Invisible Side of Design
smashingmag
297
50k
Transcript
モデル構築タスクを始める前に アサインされたら、まず確かめて Twitter @asas_mimi
Who are you? 2 Nice to meet you!
3 はじめまして:Asamiです 職歴を簡単に ✓ リスク・クオンツ ✓ Excel・VBA野郎になりさがり、すぐ転職 外資コンサル ✓ 米国某コンサルファームのデータサイエンスコンサルタント
✓ 雰囲気、最高。またいつか帰りたいな。 某カタカナの 証券会社 某保険系 ✓ 定量評価部データサイエンスTの立ち上げメンバー。 ✓ 色々な経験を頂きました。良いメンバーに巡り会えたなと。 国家公務員 ✓ 某省(1種)に入省。犯罪・治安関係全般に従事 某保険系 ✓ 社内教育をしながら、細々とデータサイエンス活動 ✓ 好きなデータは画像・動画 • 学部時代は理論社会学専攻(Luhmann理論/OG論争らへんが好き)でした。 • 大学院で応用数学を勉強し(かじり)社会人に!
本日のテーマは 「教師あり学習」プロジェクト 4 ・・・を始める前に考えること(メモ)
本スライド内の事例っぽいものは 全て架空の出来事です 5
教師あり学習 vs. 教師なし学習 6 特徴量A 特徴量B 教師あり学習 教師なし学習 教師ラベル情報をできる だけ綺麗に分類したい
特徴量空間内で似ているも の同士をグルーピングしたい
教師あり学習 vs. 教師なし学習 7 特徴量A 特徴量B 教師あり学習 教師なし学習 今日は基本的にこっち(教師あり学習)の話をします
N L P M モデル選択で考えるべきこと 8 さあ、分析設計です。考えるべきことは2つ 表現したい現象の特殊性 何がしたいんだっけ? ビジネルの理解
現象の理解 最適なモデル選択の検討が可能 Imbalanced data ? サンプリングしようかな 個人-集団の階層性を 表現? 階層ベイズとか使えそう Inputは画像かー e.t.c.
N L P M モデル選択で考えるべきこと 9 本日ご案内するのは主に右側の一部 1. 予測精度の追求 2.
結果の安定性 3. 解釈可能性 4. 因果効果 5. 開発のコスパ 表現したい現象の特殊性 何がしたいんだっけ? ビジネルの理解 現象の理解 結局ビジネス上のニーズと制約をしっかり理解できたモデルが良いモデル (あえてビジネスって書いたけど、本当はアカデミズムでも同じ!) 考えること こっちは各自 教科書読もう 論文読もう 勉強大事 私が
1.予測精度が命のPJの場合 10 ・・・幸運なPJですね。 なんでもやればいいと思う
N L P M 1. 予測精度の追求 11 • もし、これだけを目指すのであれば、なんでもあり。 •
例えば、Kaggle的な戦法とか Stacking x1 x2 x3 xp Ydnn Yxgbt Y サンプル1 サンプル2 サンプル3 サンプル4 サンプル5 サンプル6 サンプル7 これで学習 これで学習 X X 任意の学習器 メタ特徴量 メタ特徴量を使って、 さらに予測モデルを構築 予測モデルのピラミッド
N L P M 1. 予測精度の追求 12 • 予測値が当たればなんでもいいようなタスク •
一部のマーケティングタスク • 一部の画像処理、自然言語処理タスク • コンペ(kaggleとか) • モデルの可読性を重視するタスク • 説明責任が強いタスク • モデルメンテのリソースに不安 e.t.c.
N L P M 1. 予測精度の追求 13 (悪意のない)手のひら返しに注意!! ?? プロジェクト前
プロジェクト後 とにかく精度が 良いの作ってよ 精度重視ですね! 任せてください!! よくも意味不明なモデル作っ てくれたな。。。 (当局説明どうすんだ!) ゴメンナサイ… なんか凄いね • クライアントに、モデルの要件を丸投げするのは危険 • クライアントとデータ分析屋さんが協力してモデル要件を決めていこう
2.モデルの挙動は心配ですよね 14 ・・・複雑なモデルを選択? リリース前には覚悟が必要
N L P M 2. 結果の安定性(予見可能性) 15 事例その1) Google photosのゴリラ問題
ビジネルの理解 https://www.theguardian.com/technology/2015/jul/01/google-sorry-racist-auto-tag- photo-app
N L P M 2. 結果の安定性(予見可能性) 16 ビジネルの理解 Evtimov et
al.: Robust Physical-World Attacks on Machine Learning Models. 2017 https://arxiv.org/abs/1707.08945 「止まれ」の標識に、 ちょっとモザイクいれた ら「45m制限」と誤 認識してる 事例その2)敵対的入力(adversarial example)
CACE Changing Anything Changes Everything 17 Deep Learningの難しいところ
3.モデル内容をどこまで説明? 18 ・・・規制当局への説明、 お客様への説明
N L P M 3. 解釈可能性 19 • 一言にモデルの「解釈」といっても、いろいろなレベルがある •
どのレベルの解釈性が必要?(けっこう左上が多い。。。) ▪機械学習と解釈可能性 https://speakerdeck.com/sinhrks/ji-jie-xue-xi-tojie-shi-ke-neng-xing?slide=36 • Regression Coefficents • Feature Importance ・・・ • Surrogate Models • Sensitivity Analysis ・・・ • Maximum Activation Analysis (GAN e.t.c.) • LIME • LOCO • SHAP ・・・ Model Specific Model Agnostic Global Interpretability Local Interpretability
4.そもそも予測が目的じゃない? 20 ・・・因果関係が知りたい 公務員時代はこっちがメイン
N L P M 4. 因果効果 21 モデルが解釈可能 因果効果 Model
Specific & Global Interpretability に
N L P M 4. 因果効果 22 YES NO YES
テッパン Sure Thing あまのじゃく Do-Not-Disturb NO 説得可能 Persuadable 無関心 Lost Cause 施策を受けた場合、購買する? 施 策 を 受 け な か っ た 場 合 購 買 す る ? 反事実条件 counterfactual 反事実条件 • 因果関係タスクの基本は 反事実条件 counterfactual をどう向き合うか
N L P M 4. 因果効果 2 3 研究スキーム対応 統計的因果推論
関連の話題 操作変数法/GMM:「説明変数と相関があり」かつ「誤差との相関がゼロ である」 のような変数を利用 LiNGAM:ダルモア・スキットビッチの定理の対偶を上手く利用して、因果の 向きを推定 傾向スコア:交絡因子から割り付け確率を算出。当該スコアをもとに、マッ チング等によって因果効果を推定 部分識別:パラメータを入りうるバウンドとして識別 無作為比較実験(RCT)で対応 介入群と統制群をランダムに割り当て、比較 バックドア基準:バイアスを避けるために,データが生成されている構造を しっかり捉えよう グレンジャー因果性:時系列の特性をうまく用いて因果推定
5.そのプロジェクト、 機械学習にバリューある? 24 ・・・手段の目的化? ピボットテーブルでよくない?
N L P M 5. 開発の時間的制約とコスパ 25 架空ケース)架空の銀行にて 住宅ローン審査をAIを使った与信モデル で完全自動化しまーす!!
コンサル屋さん デジタル! ディスラプト!! シンギュラリティ!!! • 過去の審査情報をモデル化 • 事務効率化を狙う 特徴量 教師データ 住宅ローン申込書 過去の審査結果 受託!!
N L P M 5. 開発の時間的制約とコスパ 26 架空ケース)架空の銀行にて 住宅ローン審査をAIを使った与信モデル で完全自動化しまーす!!
コンサル屋さん デジタル! ディスラプト!! シンギュラリティ!!! • 過去の審査情報をモデル化 • 事務効率化を狙う 審査ルールブックの存在(を発見) • 返済比率35%超なら不可 • 年収の•倍超なら不可 e.t.c. ・・・ん?? 特徴量 教師データ 住宅ローン申込書 過去の審査結果 受託!!
If 文 で十分では?? Simple is best 27
N L P M 5. 開発のコスパ 28 機械学習PJは(本気でやれば)高コストだし、無事着地できるかどうか、、、 特徴量 エンジニアリング
ハイパーパラメータ チューニング モデル 軽量化/高速化 データ分析屋さんのマインドセット ≠ (ソフトウェア)エンジニアのマインドセット • これらの処理は(決められた期日内で、)とにかくギリギリまで繰り返したい • かつ、頑張ってもタスクによっては、うまくいくかどうか不明 高コスト 高リスク
N L P M 5. 開発のコスパ 29 案件発見 if文で書ける if文システム
構築 • 低コスト • 安定システム if文では、流石に無理 モデル精度と ご利益の関係は? モデル精度 100% 0% ご 利 益 ( 売 上 等 ) ④ 後期爆発型PJ ① 線形PJ ② シグモイド型PJ ③ 一定型PJ モデルが良くなればよくなるほど、 売上up! 是非やろう!! 一定レベルの精度が出たら、 利益頭打ち。 コスパ考えよう。 モデルとビジネスが繋がってない。 モデルをどう活かすか考えてから、 取り組むべき! 精度が閾値を超えないと、利 益が出ない(無価値) 到達可能かどうか要チェック ① 線形 ② シグモ イド ③ 一定 ④ 後期 爆発
N L P M 5. 開発のコスパ 30 モデル精度と ご利益の関係は? モデル精度
100% 0% ご 利 益 ( 売 上 等 ) モデル構築の フィージビリティ そもそもそんなモデル構築可能? データ分析屋さんのアセスメント 日次単位の 地震予知モデル 作ってよ! モデルのご利益OK? フィージビリティもOK? 機械学習プロジェクト スタート!!
データ分析屋さんのコンサル業、 ジョブがイケてるとは限らない 始める前に、 軌道修正と期待値コントロールは大事 31