Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習タスクを始める前に
Search
Masa
April 10, 2019
Business
14
6.7k
機械学習タスクを始める前に
プライベートの新社会人向け勉強会にて
一部修正後up
データ分析屋さんにこれからなる皆様へ
Masa
April 10, 2019
Tweet
Share
More Decks by Masa
See All by Masa
Quick introduction to CounterFactual Regression (CFR)
masa_asa
0
1.9k
[blog用] Comparison of Estimation Methods in Causal Inference
masa_asa
0
250
DMLDiD
masa_asa
0
2k
Pythonで学ぶSynthetic Difference in Differences
masa_asa
0
4.1k
[勉強会資料メモ] Double/Debiased ML
masa_asa
1
2.5k
勉強会準備資料備忘:causal forest & r-learner
masa_asa
7
6.8k
LT資料_knowledge ~蒸留・モデル圧縮・そしてKT~
masa_asa
1
1.5k
Other Decks in Business
See All in Business
Agentic AIを用いたサプライチェーン最適化
mickey_kubo
1
110
Gemini と NotebookLM を組み合わせて 目標設定の負荷を軽減する方法 / Goal setting with gemini and notebooklm
tbpgr
19
38k
【会社紹介資料】25年7月度
creativeinfinity
0
1.4k
在庫管理アプリ「nanco」サービス資料_2025
nsketch
0
120
メドピアグループ紹介資料
medpeer_recruit
10
140k
他人が怖くて話せない私が、過去の寄り道に救われた『会話へのハードルを”割引”する方法』
aokiplayer
PRO
0
190
メルカリグループ行動規範
mercari_inc
0
580
テオリア・テクノロジーズ:About Us
theoriatec2024
2
40k
株式会社10X - Company Deck
10xinc
89
1.6M
2025年10月副業制度運用者の実態調査
fkske
0
150
2025年 コミュニティ×ビジネスのリアル_Mitz
comucal
PRO
0
150
株式会社トリビュー|会社説明資料 / Company Deck
tribeau
5
20k
Featured
See All Featured
Scaling GitHub
holman
463
140k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
930
Product Roadmaps are Hard
iamctodd
PRO
55
11k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.7k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
A Tale of Four Properties
chriscoyier
161
23k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Into the Great Unknown - MozCon
thekraken
40
2.1k
GitHub's CSS Performance
jonrohan
1032
470k
We Have a Design System, Now What?
morganepeng
53
7.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Transcript
モデル構築タスクを始める前に アサインされたら、まず確かめて Twitter @asas_mimi
Who are you? 2 Nice to meet you!
3 はじめまして:Asamiです 職歴を簡単に ✓ リスク・クオンツ ✓ Excel・VBA野郎になりさがり、すぐ転職 外資コンサル ✓ 米国某コンサルファームのデータサイエンスコンサルタント
✓ 雰囲気、最高。またいつか帰りたいな。 某カタカナの 証券会社 某保険系 ✓ 定量評価部データサイエンスTの立ち上げメンバー。 ✓ 色々な経験を頂きました。良いメンバーに巡り会えたなと。 国家公務員 ✓ 某省(1種)に入省。犯罪・治安関係全般に従事 某保険系 ✓ 社内教育をしながら、細々とデータサイエンス活動 ✓ 好きなデータは画像・動画 • 学部時代は理論社会学専攻(Luhmann理論/OG論争らへんが好き)でした。 • 大学院で応用数学を勉強し(かじり)社会人に!
本日のテーマは 「教師あり学習」プロジェクト 4 ・・・を始める前に考えること(メモ)
本スライド内の事例っぽいものは 全て架空の出来事です 5
教師あり学習 vs. 教師なし学習 6 特徴量A 特徴量B 教師あり学習 教師なし学習 教師ラベル情報をできる だけ綺麗に分類したい
特徴量空間内で似ているも の同士をグルーピングしたい
教師あり学習 vs. 教師なし学習 7 特徴量A 特徴量B 教師あり学習 教師なし学習 今日は基本的にこっち(教師あり学習)の話をします
N L P M モデル選択で考えるべきこと 8 さあ、分析設計です。考えるべきことは2つ 表現したい現象の特殊性 何がしたいんだっけ? ビジネルの理解
現象の理解 最適なモデル選択の検討が可能 Imbalanced data ? サンプリングしようかな 個人-集団の階層性を 表現? 階層ベイズとか使えそう Inputは画像かー e.t.c.
N L P M モデル選択で考えるべきこと 9 本日ご案内するのは主に右側の一部 1. 予測精度の追求 2.
結果の安定性 3. 解釈可能性 4. 因果効果 5. 開発のコスパ 表現したい現象の特殊性 何がしたいんだっけ? ビジネルの理解 現象の理解 結局ビジネス上のニーズと制約をしっかり理解できたモデルが良いモデル (あえてビジネスって書いたけど、本当はアカデミズムでも同じ!) 考えること こっちは各自 教科書読もう 論文読もう 勉強大事 私が
1.予測精度が命のPJの場合 10 ・・・幸運なPJですね。 なんでもやればいいと思う
N L P M 1. 予測精度の追求 11 • もし、これだけを目指すのであれば、なんでもあり。 •
例えば、Kaggle的な戦法とか Stacking x1 x2 x3 xp Ydnn Yxgbt Y サンプル1 サンプル2 サンプル3 サンプル4 サンプル5 サンプル6 サンプル7 これで学習 これで学習 X X 任意の学習器 メタ特徴量 メタ特徴量を使って、 さらに予測モデルを構築 予測モデルのピラミッド
N L P M 1. 予測精度の追求 12 • 予測値が当たればなんでもいいようなタスク •
一部のマーケティングタスク • 一部の画像処理、自然言語処理タスク • コンペ(kaggleとか) • モデルの可読性を重視するタスク • 説明責任が強いタスク • モデルメンテのリソースに不安 e.t.c.
N L P M 1. 予測精度の追求 13 (悪意のない)手のひら返しに注意!! ?? プロジェクト前
プロジェクト後 とにかく精度が 良いの作ってよ 精度重視ですね! 任せてください!! よくも意味不明なモデル作っ てくれたな。。。 (当局説明どうすんだ!) ゴメンナサイ… なんか凄いね • クライアントに、モデルの要件を丸投げするのは危険 • クライアントとデータ分析屋さんが協力してモデル要件を決めていこう
2.モデルの挙動は心配ですよね 14 ・・・複雑なモデルを選択? リリース前には覚悟が必要
N L P M 2. 結果の安定性(予見可能性) 15 事例その1) Google photosのゴリラ問題
ビジネルの理解 https://www.theguardian.com/technology/2015/jul/01/google-sorry-racist-auto-tag- photo-app
N L P M 2. 結果の安定性(予見可能性) 16 ビジネルの理解 Evtimov et
al.: Robust Physical-World Attacks on Machine Learning Models. 2017 https://arxiv.org/abs/1707.08945 「止まれ」の標識に、 ちょっとモザイクいれた ら「45m制限」と誤 認識してる 事例その2)敵対的入力(adversarial example)
CACE Changing Anything Changes Everything 17 Deep Learningの難しいところ
3.モデル内容をどこまで説明? 18 ・・・規制当局への説明、 お客様への説明
N L P M 3. 解釈可能性 19 • 一言にモデルの「解釈」といっても、いろいろなレベルがある •
どのレベルの解釈性が必要?(けっこう左上が多い。。。) ▪機械学習と解釈可能性 https://speakerdeck.com/sinhrks/ji-jie-xue-xi-tojie-shi-ke-neng-xing?slide=36 • Regression Coefficents • Feature Importance ・・・ • Surrogate Models • Sensitivity Analysis ・・・ • Maximum Activation Analysis (GAN e.t.c.) • LIME • LOCO • SHAP ・・・ Model Specific Model Agnostic Global Interpretability Local Interpretability
4.そもそも予測が目的じゃない? 20 ・・・因果関係が知りたい 公務員時代はこっちがメイン
N L P M 4. 因果効果 21 モデルが解釈可能 因果効果 Model
Specific & Global Interpretability に
N L P M 4. 因果効果 22 YES NO YES
テッパン Sure Thing あまのじゃく Do-Not-Disturb NO 説得可能 Persuadable 無関心 Lost Cause 施策を受けた場合、購買する? 施 策 を 受 け な か っ た 場 合 購 買 す る ? 反事実条件 counterfactual 反事実条件 • 因果関係タスクの基本は 反事実条件 counterfactual をどう向き合うか
N L P M 4. 因果効果 2 3 研究スキーム対応 統計的因果推論
関連の話題 操作変数法/GMM:「説明変数と相関があり」かつ「誤差との相関がゼロ である」 のような変数を利用 LiNGAM:ダルモア・スキットビッチの定理の対偶を上手く利用して、因果の 向きを推定 傾向スコア:交絡因子から割り付け確率を算出。当該スコアをもとに、マッ チング等によって因果効果を推定 部分識別:パラメータを入りうるバウンドとして識別 無作為比較実験(RCT)で対応 介入群と統制群をランダムに割り当て、比較 バックドア基準:バイアスを避けるために,データが生成されている構造を しっかり捉えよう グレンジャー因果性:時系列の特性をうまく用いて因果推定
5.そのプロジェクト、 機械学習にバリューある? 24 ・・・手段の目的化? ピボットテーブルでよくない?
N L P M 5. 開発の時間的制約とコスパ 25 架空ケース)架空の銀行にて 住宅ローン審査をAIを使った与信モデル で完全自動化しまーす!!
コンサル屋さん デジタル! ディスラプト!! シンギュラリティ!!! • 過去の審査情報をモデル化 • 事務効率化を狙う 特徴量 教師データ 住宅ローン申込書 過去の審査結果 受託!!
N L P M 5. 開発の時間的制約とコスパ 26 架空ケース)架空の銀行にて 住宅ローン審査をAIを使った与信モデル で完全自動化しまーす!!
コンサル屋さん デジタル! ディスラプト!! シンギュラリティ!!! • 過去の審査情報をモデル化 • 事務効率化を狙う 審査ルールブックの存在(を発見) • 返済比率35%超なら不可 • 年収の•倍超なら不可 e.t.c. ・・・ん?? 特徴量 教師データ 住宅ローン申込書 過去の審査結果 受託!!
If 文 で十分では?? Simple is best 27
N L P M 5. 開発のコスパ 28 機械学習PJは(本気でやれば)高コストだし、無事着地できるかどうか、、、 特徴量 エンジニアリング
ハイパーパラメータ チューニング モデル 軽量化/高速化 データ分析屋さんのマインドセット ≠ (ソフトウェア)エンジニアのマインドセット • これらの処理は(決められた期日内で、)とにかくギリギリまで繰り返したい • かつ、頑張ってもタスクによっては、うまくいくかどうか不明 高コスト 高リスク
N L P M 5. 開発のコスパ 29 案件発見 if文で書ける if文システム
構築 • 低コスト • 安定システム if文では、流石に無理 モデル精度と ご利益の関係は? モデル精度 100% 0% ご 利 益 ( 売 上 等 ) ④ 後期爆発型PJ ① 線形PJ ② シグモイド型PJ ③ 一定型PJ モデルが良くなればよくなるほど、 売上up! 是非やろう!! 一定レベルの精度が出たら、 利益頭打ち。 コスパ考えよう。 モデルとビジネスが繋がってない。 モデルをどう活かすか考えてから、 取り組むべき! 精度が閾値を超えないと、利 益が出ない(無価値) 到達可能かどうか要チェック ① 線形 ② シグモ イド ③ 一定 ④ 後期 爆発
N L P M 5. 開発のコスパ 30 モデル精度と ご利益の関係は? モデル精度
100% 0% ご 利 益 ( 売 上 等 ) モデル構築の フィージビリティ そもそもそんなモデル構築可能? データ分析屋さんのアセスメント 日次単位の 地震予知モデル 作ってよ! モデルのご利益OK? フィージビリティもOK? 機械学習プロジェクト スタート!!
データ分析屋さんのコンサル業、 ジョブがイケてるとは限らない 始める前に、 軌道修正と期待値コントロールは大事 31