Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
はじめての機械学習 / Entrance to Machine Learning
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
松村優哉
April 17, 2021
Programming
820
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
はじめての機械学習 / Entrance to Machine Learning
松村優哉
April 17, 2021
More Decks by 松村優哉
See All by 松村優哉
はじめての機械学習 / entrance-to-machine-learning2022
y__mattu
2
1.2k
validateパッケージでデータを検証する / Data Validation with validate package
y__mattu
0
690
rstanの環境構築 / Set Up rstan
y__mattu
1
1.2k
R言語とGo言語 / R and Go
y__mattu
2
1.1k
平均値と中央値の違いについて
y__mattu
1
960
dplyr 1.0.0の新機能 / dplyr 1.0.0
y__mattu
2
10k
Other Decks in Programming
See All in Programming
作って学ぶ、 JSX (TSX) ランタイムの基本
syumai
7
1.6k
コンテキストの使い捨てをやめる — ビジネスルール駆動開発と miko —
ioki
0
210
セキュリティの専門家じゃなくてもできる。「セキュリティ意識」をアップデートして サプライチェーン攻撃への耐性を高めよう。
tk3fftk
5
880
代数的データ型って何が嬉しいの? #frontend_phpcon_do
kajitack
8
3.7k
New "Type" system on PicoRuby
pocke
1
980
エージェンティックRAGにAWSで入門しよう!
har1101
8
1.7k
さぁV100、メモリをお食べ・・・
nilpe
0
150
Agentic UI
manfredsteyer
PRO
0
180
Even G2とAWSで推しのエージェントを召喚しよう!
har1101
1
120
Performance Engineering for Everyone
elenatanasoiu
0
180
TSKaigi Night Talks 2026_TypeScriptでサプライチェーンの整合性を型に閉じ込める
geekplus_tech
0
400
不変条件と整合性境界—ビジネスが決める設計判断と実現パターン / Invariants and Consistency Boundaries
nrslib
14
5.6k
Featured
See All Featured
Evolving SEO for Evolving Search Engines
ryanjones
0
220
A Tale of Four Properties
chriscoyier
163
24k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
390
The World Runs on Bad Software
bkeepers
PRO
72
12k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Ethics towards AI in product and experience design
skipperchong
2
310
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
370
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Side Projects
sachag
455
43k
GitHub's CSS Performance
jonrohan
1033
470k
Music & Morning Musume
bryan
47
7.2k
Transcript
͡Ίͯͷػցֶश !Z@@NBUUV 5PLZP3
୭ʁ • 名前: 松村優哉 • 学⽣時代の専⾨: 計量経済学、 ベイズ統計、因果推論、マーケティング (研究室のAWSの管理とかもやってた) •
⾔語: R, Python • HR系企業でデータサイエンティストしてます • Tokyo.R 運営(初⼼者セッション等) @y__mattu ymattu 2
એ • Ӊຊ͜ͱʰ3ϢʔβͷͨΊͷ34UVEJP<࣮ફ>ೖʱ 3 ୈষ 3TUVEJPͷجૅ ୈষ εΫϨΠϐϯάʹΑΔσʔλऩू ୈষ EQMZSUJEZSʹΑΔσʔλલॲཧ
ୈষ HHQMPUʹΑΔσʔλՄࢹԽ ୈষ 3.BSLEPXOʹΑΔσʔλՄࢹԽ վగୈ൛ൃചܾఆʂʂʂ ओͳมߋ • ࠷৽ͷ34UVEJP ֤छύοέʔδʹରԠ • จࣈྻૢ࡞ʢTUSJOHSʣૢ࡞ʢMVCSJEBUFʣʹؔ͢Δ
࣍ • ػցֶशͱ • ڭࢣ͋Γֶश WTڭࢣͳֶ͠श • ྨ WTճؼ •
Ϟσϧબ • 3Ͱػցֶश 4
͜ͷࢿྉͷରɾత ର • ʮػցֶशʯͱ͍͏ݴ༿ΛॳΊͯฉ͘ • ͜Ε͔ΒσʔλੳΛษڧ͢Δ త • ʮػցֶशͬͯ݁ہԿΛͬͯΔͷʁʯΛͬ͘͟Γཧղ͢Δ •
ʮػցֶश ͍͠ʯPSʮػցֶशͬͯ"*ͰΊͬͪΌ͍͢͝ʯͱ͍͏Π ϝʔδͷ১ • ͜Ε͔Βษڧ͢Δͱ͖ͷ͓࣋ͬͯ͘ͱ͍͍ΠϝʔδΛʹ͚ͭΔ • Α͘ग़ͯ͘ΔΩʔϫʔυͷཧղ ͞ͳ͍͜ͱ • ࣜʹΑΔղઆ 5
ػցֶशͱ 6 • ⼀⾔で σʔλ͔ΒύλʔϯΛೝࣝ͠ɺ ະͷ͑Λ༧ଌ͢ΔͨΊͷϧʔϧΛ ࣗಈతʹ࡞Γग़͢Α͏ʹɺ ϚγϯʢίϯϐϡʔλʣΛτϨʔχϯά͢Δ
؆୯ͳΠϝʔδ 7 • 残業時間と退職のデータがあったとします • 残業時間で退職の有無をおよそ判断できるように、線を引く =パターン認識 ۀ࣌ؒ 退職した 退職しない
ۀ࣌ؒ
؆୯ͳΠϝʔδ 8 • 新しいデータが得られたとき、引いた線によって、退職の有無を予 測できる ۀ࣌ؒ
アルゴリズム データ モデル 線の引き⽅ 線が引かれている状態
ڭࢣ͋Γֶश WTڭࢣͳֶ͠श
ͲͷΑ͏ʹϞσϧΛֶश͢Δ͔ 10 • ڭࢣ͋Γֶश • աڈͷσʔλͷதʹϥϕϧ͕͋Δ • ϞσϧͷதɺϥϕϧΛ༧ଌ͢ΔͨΊͷϧʔϧ ୀ৬ 1
0 0 1 ۀ ࣌ؒ ྸ څ༩ ɾɾɾ తม ैଐม આ໌ม ಠཱม ༧ଌม ಛྔ
ڭࢣ͋ΓֶशͷදతͳΞϧΰϦζϜ 11 • ઢܗճؼ • ϩδεςΟοΫճؼɺ(-. • 47. • ܾఆɺϥϯμϜϑΥϨετ
• 9(#PPTUɺ-JHIU(#. ΄͔ʹͨ͘͞Μ
12 ୀ৬ 1 0 0 1 ۀ ࣌ؒ ྸ څ༩
ɾɾɾ アルゴリズム モデル ୀ৬ ︖ ︖ ︖ ︖ ۀ ࣌ؒ ྸ څ༩ ɾɾɾ ୀ৬ 0 0 1 1 ۀ ࣌ؒ ྸ څ༩ ɾɾɾ ༧ଌ
ͲͷΑ͏ʹϞσϧΛֶश͢Δ͔ 13 • ڭࢣͳֶ͠श • աڈͷσʔλͷதʹϥϕϧ͕ͳ͍ • Ϟσϧͷதɺάϧʔϓ͚ͷϧʔϧ • ϥϕϧɺ͚ΒΕͨ݁ՌΛݟͯਓ͕͚ͭΔ
ۀ ࣌ؒ ྸ څ༩ ɾɾɾ આ໌ม ಠཱม ༧ଌม ಛྔ ۀɾଟ څ༩ɾଟ ۀɾগ څ༩ɾଟ
ڭࢣͳֶ͠शͷදతͳΞϧΰϦζϜ 14 • ΫϥελϦϯά • ,NFBOT • ओੳ • ҟৗݕ
• τϐοΫϞσϧ ΄͔ʹͨ͘͞Μ
͔͜͜Βɺڭࢣ͋Γֶशʹ যΛͯͯ
ྨ WTճؼ
ྨͱճؼ 17 • ྨ • తม͕ΧςΰϦʔ • ճؼ • తม͕
ࣙΊΔʁࣙΊͳ͍ʁ ݘʁೣʁϥΠΦϯʁ དྷظͷडʁ དྷళʁ גՁʁ ೋྨ ଟྨɾଟΫϥεྨ
Ϟσϧબ Ϟσϧͷͯ·Γͱ൚Խੑ
Ϟσϧબ 19 • Ұ൪ྑ͍ઢͷҾ͖ํʁ • ֶशσʔλʹର͢Δਫ਼ • ະͷσʔλʹର͢Δ༧ଌྗ څྉ ۀ࣌ؒ
ສ ສ
Ϟσϧબ 20 • ڀۃతʹɺ͜͏ • ֶशσʔλʹର͢Δ༧ଌྗ • ະͷσʔλʹର͢Δ༧ଌྗऑͦ͏ څྉ ۀ࣌ؒ
ສ ສ ະͷσʔλ͕͜͜ͷͱ͖ɺ ϞσϧͲͪΒͱ༧ଌ͢Δʁ
Ϟσϧબ 21 • ͜ͷ͘Β͍͕όϥϯεྑͦ͞͏ • ֶशσʔλʹର͢Δ༧ଌྗ • ະͷσʔλʹର͢Δ༧ଌྗڧͦ͏ څྉ ۀ࣌ؒ
ສ ສ
Ϟσϧબ 22 • ະͷσʔλͷ༧ଌྗڧͦ͏ɺऑͦ͏ΛͲ͏அ͢Δ͔ʁ ˠσʔλΛֶश༻ɺςετ༻ʹׂͯ͠ɺςετ༻Ͱ༧ଌྗΛଌΔ • ࢀߟΫϩεόϦσʔγϣϯ ୀ৬ 1 0
0 1 ۀ ࣌ؒ ྸ څ༩ ɾɾɾ ֶश༻ ςετ༻ ϥϯμϜʹ͘Β͍͕ଟ͍ IUUQTRJJUBDPN
[email protected]
JUFNTEFFEDCBC
ྨΛ3ͰͬͯΈΔ
ѻ͏σʔλ 24 • ペンギンデータ JOTUBMMQBDLBHFT QBMNFSQFOHVJOT MJCSBSZ QBMNFSQFOHVJOT EBUB
QBDLBHFQBMNFSQFOHVJOT` IFBE QFOHVJOT "UJCCMFY TQFDJFTJTMBOECJMM@MFOHUI@NN CJMM@EFQUI@NN GMJQQFS@MFOHUI@ʜCPEZ@NBTT@H TFY GDUGDUECMECMJOUJOUGDU "EFMJF5PSHFʜNBMF "EFMJF5PSHFʜGFNBʜ "EFMJF5PSHFʜGFNBʜ "EFMJF5PSHFʜ/"/"/"/"/" "EFMJF5PSHFʜGFNBʜ "EFMJF5PSHFʜNBMF ʜXJUINPSFWBSJBCMFZFBSJOU EBU QFOHVJOT EQMZSGJMUFS JTOB TFY TFY͕ܽଛͷྻΛআ֎
ܾఆϞσϧ 25 σʔλΛׂ JEY TBNQMF OSPX EBU OSPX EBU
EBUBUSBJO EBU<JEY > EBUBUFTU EBU<JEY > NPEFMEU QBSUZLJUDUSFF TQFDJFTd EBUBEBUBUSBJO QMPU NPEFMEU UZQFTJNQMF
ϥϯμϜϑΥϨετ 26 IUUQTTQFBLFSEFDLDPNLBOBVHVTUFYQMPSBUPSZTFNJOBOVNCFSKJKJFYVFYJ TMJEF
ϥϯμϜϑΥϨετ 27 NPEFMSG SBOHFSSBOHFS TQFDJFTd EBUBEBUBUSBJO NUSZ OVNUSFFT
SFTVMUSG QSFEJDU NPEFMEU EBUBUFTU DNSG DBSFUDPOGVTJPO.BUSJY SFTVMUSG EBUBUFTUTQFDJFT $POGVTJPO.BUSJYBOE4UBUJTUJDT 3FGFSFODF 1SFEJDUJPO"EFMJF$IJOTUSBQ(FOUPP "EFMJF $IJOTUSBQ (FOUPP 0WFSBMM4UBUJTUJDT "DDVSBDZ $* /P*OGPSNBUJPO3BUF 17BMVF<"DD/*3>F ɾɾɾ
·ͱΊ
·ͱΊ 29 • 機械学習は、要するにパターン認識 • データをマッピングして、線を引くイメージ • ⽅法として、教師あり学習と教師なし学習がある • 教師あり→データにラベルがある
• 教師なし→データにラベルがない • ラベルが数値の場合、回帰。ラベルがカテゴリの場合、分類。 • モデルの当てはまり・汎化性に気をつけよう • Rでは様々なアルゴリズムに対応するパッケージが⽤意されている • 使ってみて、統⼀感がないなあと思う場合はtidymodelsもおすすめ