FukuokaR #7

Ӣ Ӣ Ӣ Ӣ Ӣ Ӣ Ӣ Ӣ Ӣ Ӣ
Ӣ ֗ ֗ ֗ ֗ ֗ ֗ ֗ ֗ ֗ ֗ ొ ཽ ໳

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 2
਺ཧϞσϦϯάͱɺ ౷ܭϞσϦϯάͱɺ ͦΕ͔Βɺࢲɻ 2

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 3
@ Fukuoka R Mar 25, 2017 य़ Hiroki Mizukami Destroy 3

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 4
※ݸਓͷݟղɻɻɻ 4

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 5
5 ࣗݾ঺հͱ͝ΊΜͳ͍͞ ౷ܭϞσϦϯά ༧ଌͱ൚Խ ઢܗճؼϞσϧ ·ͱΊ ਺ཧϞσϦϯά ղऍͱ൚Խ

• Έ͔ͣΈ ͻΖ͖ • LINE_ID: @piroyoung • αΠόʔܥͷAI Labɽ •
αʔόαΠυΤϯδχΞ • σʔλαΠΤϯςΟετ • ౦ژࡏॅʗ෱Ԭग़਎ • ਺ֶʗ޿ࠂʗWeb • Love έΰύʔΫ • R/Python/Scala/javascript/Spark/ Docker/AWS/Stan/Tableau/AWS/GCP ࣗݾ঺հ ϔϏϝλ

Rݴޠ ʢڱٛʣ Rݴޠʢ͋ʔΔ͛Μ͝ʣ͸ΦʔϓϯιʔεɾϑϦʔιϑτ΢ΣΞͷ౷ܭղੳ޲͚ ͷϓϩάϥϛϯάݴޠٴͼͦͷ։ൃ࣮ߦ؀ڥͰ͋Δɻ Rݴޠ͸χϡʔδʔϥϯυͷΦʔΫϥϯυେֶͷRoss IhakaͱRobert Clifford GentlemanʹΑΓ࡞ΒΕͨɻݱࡏͰ͸R Development Core
TeamʢSݴޠ։ൃऀ Ͱ͋ΔJohn M. Chambers΋ࢀը͍ͯ͠Δ[1]ɻʣʹΑΓϝϯςφϯεͱ֦ு͕ͳ ͞Ε͍ͯΔɻ Rݴޠͷιʔείʔυ͸ओʹCݴޠɺFORTRANɺͦͯ͠RʹΑͬͯ։ൃ͞Εͨɻ - wikipedia -

Rݴޠ ʢ޿ٛʣ σʔλ෼ੳΛੜۀͱ͢Δܑ͓͞Μ͓Ͷ͐͞ΜୡͷίϛϡχςΟͷ૯শɾ֓೦ɾε ϥϯάɻདྷΔ΋ͷ͸શͯڋ·ͳ͍ελΠϧͰɺ࣮ࡍʹσʔλ෼ੳΛ΍͍ͬͯΔ͔ ͢ΒجຊతʹࣗݾਃࠂɻϢʔϞΞͱϢʔϞΞͱਓฑ͕஫໨ΛूΊΔϙΠϯτɽෳ ਺ͷελʔτΞοϓϕϯνϟʔΛੜΈग़͍ͯ͠Δɽ ͱ͋Δ౷ܭʹΑΔͱ࣮ࡍʹRΛ͔ͭͬͯΔͻͱ͸ Α͏͢Δʹɼࠓ೔͸RͷίΞͳ࿩͠ͳ͍ͬͯ͜ͱͰ͢͢Έ·ͤΜɽ - mikipedia
-

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 9

਺ཧϞσϦϯά ਺ཧϞσϦϯά ͱ͸σʔλͷதʹ͋Δߏ଄Λ਺ࣜͰهड़͢Δ͜ͱ ྫ͑͹͜Μͳσʔλ͕༗Δ ͜ͷͱ͖όωAʹؔͯ͠͸ ʦόωͷ௕͞ʧʹ 0.2 x [͓΋Γͷॏ͞] +
3 ͱݱ৅ʹؔ͢Δ਺ࣜͷදݱ͕ಘΒΕΔɽ

਺ཧϞσϦϯά Ͳ͏΍ͬͨʁ όωAʹؔͯ͠ҎԼͷ࿈ཱํఔ͕ࣜͨͯΒΕΔ ͜ΕΛղ͚͹

਺ཧϞσϦϯά Կ͕͏Ε͍͠ʁ • ݱ࣮ͷ໰୊ͷߟ࡯ʹ਺ֶͷςΫχοΫͰ౴͑ΒΕΔɽ • ௚ײ͕ٴ͹ͳ͍໰୊ʹ΋࢖͑Δ • ݫີ • ఆྔత
• ʮόωAͷํ͕৳ͼ΍͍͢ʯ

਺ཧϞσϦϯά ݫີʻʼ௚ײɼఆྔతʻʼఆੑత ʮؾԹ͕ߴ͍ͱδϝδϝ͢ΔͶ͐ʯ ͜Ε͸͜ΕͰॏཁɽ

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 14
ʮͱΓ͋͑ͣɺՄࢹԽ͠Αʁʯ 14

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 15
ʮ਺ࣜɺͨͯΐʁʯ 15

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 16
ʮσʔλΛ୅ೖ͠Αʁʯ 16

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 17
ʮύϥϝλܭࢉͰ͖ͨ͊ʂʂʯ 17

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 18
18 Click = CTR · Imp

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 19
19 pV = nRT

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 20
20

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 21

౷ܭϞσϦϯά ౷ܭϞσϦϯά ͱ͸֬཰ʹجͮ͘਺ཧϞσϦϯάɽ ֬཰ม਺ΛؚΉϞσϧࣜΛ༻͍Δɽ ֬཰ม਺ͱ͸ϥϯμϜͳৼΔ෣͍ʹ؍ଌ஋ΛରԠ෇͚Δ࢓૊Έͷ͜ͱɽ ཁ͢Δʹ ʮ ͕ग़ͨ−ʂʂʯʹʼ 1఺ ͬͯͳ۩߹ɽ
X : ! 2 ⌦ 7! X(!) 2 R

౷ܭϞσϦϯά ࣄ৅ͱ͸ߟ࡯ͷର৅ͱ͢ΔϥϯμϜͳৼΔ෣͍ͷ͋ͭ·Γɽ ͜Ε͸؍ଌ஋͕͇ΛԼճΔͱ͍͏ৼΔ෣͍ͷू·Γͷ͜ͱ ਺ֶతͳఆٛ͸ X : ! 2 ⌦ 7!
X(!) 2 R X < x [ X < x ] := X 1([ 1 , x )) = { ! 2 ⌦| X ( ! ) < x }

౷ܭϞσϦϯά ֬཰෼෍ͱ͸؍ଌ஋ͷཚࡶ͞ͷ਺ֶతදݱ ͜Ε͸ਖ਼ن෼෍Ͱ͜Μͳײ͡ʹද͢ɽ ʮ֬཰ม਺X͕ฏۉμɼඪ४ภࠩσͷਖ਼ن෼෍ʹै͏ʯͱಡΉɽ μ΍σͳͲͷ෼෍Λݸੑ෇͚ΔύϥϝλΛ ฼਺ ͱ͍͏ɽ X ⇠ N(µ,
2)

౷ܭϞσϦϯά ਪఆͱ͸ɼσʔλΛ΋ͱʹ฼਺Λ༧૝͢Δ͜ͱ ʮΉΉʔʂ͜Ε͸֬཰0.5Ͱද͕ग़Δͷ͔΋͠Εͳ͍ʂʯ ʮ΍ͬͺ10෼ͷ1͘Β͍͔΋͠Εͳ͍ɽɽɽʯ ͜ͷਪఆ஋ͷ΋໬ʢ΋ͬͱʣ΋Β͠͞͸໬౓ͱݺ͹Ε͍ͯΔ ද ཪ ද ཪ ཪ
ཪ ཪ ཪ ཪ ཪ ཪ ཪ

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 26

ઢܗճؼϞσϧ ҎԼͷΑ͏ͳσʔλ͕༗Δɽ ͕ɼ࣮͸෩͕ਧ͍ͯͯਖ਼֬ʹܭଌग़དྷͯͳ͍ͬΆ͍ɽ ࠷ॳͱ͓ͳ͡ઢܗͷϞσϧࣜʹσʔλΛ୅ೖͯ͠ΈΔͱ

ઢܗճؼϞσϧ

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 29
ղ͚ͳ͌ɻɻɻ 29

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 30
ղͷͳ͌ɺ࿈ཱํఔࣜɻɻɻ 30

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 31
୳ͯ͠΋ɺݟ͔ͭΒͳ͌ͬͯίτɻɻɻ 31

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 32
΋͏ŵŧƄແཧɻ౷ܭ͠ΐɻɻɻ 32

ઢܗճؼϞσϧ ͜ͷϞσϧ͸؍ଌޡ͕ࠩߟྀ͞Ε͍ͯͳ͌ɻɻɻ ਖ਼ن෼෍ͷޡࠩԾఆ͢Δ y = ✓0 + ✓1x +✏ y
= ✓0 + ✓1x ✏ ⇠ N(0, 2)

ઢܗճؼϞσϧ ਖ਼ن෼෍ʹै͏ޡࠩΛԾఆͨ͠ϞσϧΛઢܗճؼϞσϧͱ͍͏ ✏ ⇠ N(0, 2) Y (✓0 + ✓1X)
⇠ N(0, 2) Y ⇠ N(✓0 + ✓1X, 2)

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 35
ਪఆ͠ΐɻɻɻ 35

ઢܗճؼϞσϧ ਖ਼ن෼෍ʹै͏ޡࠩΛԾఆͨ͠ϞσϧΛઢܗճؼϞσϧͱ͍͏ Ұ൪໬΋Β͍͠θͱσΛܭࢉ͢Δ ͜͜Ͱ Y ⇠ N(✓0 + ✓1X, 2)
L(✓1, ✓2, ) = Y i 1 p 2⇡ 2 e (yi µi)2 2 2 µi = ✓0 + ✓1xi

ઢܗճؼϞσϧ ର਺໬౓ؔ਺͸ θͷਪఆ͸Լઢ෦Λ࠷খʹ͢Ε͹͍͍ࣄ͕Θ͔Δ ͜ΕΛ࠷খ2৐๏ͱ͍͏ɽ = 0

ઢܗճؼϞσϧ σʹؔ͢Δ໬౓ํఔࣜ͸ ͜ΕΛղ͚͹ ͕ಘΒΕΔɽ͜Ε͸ඪຊ෼ࢄɽ @ @ log L ( ✓1,
✓2, ) = 0 2 = 1 n X i (yi µi)2

ઢܗճؼϞσϧ Rͩͱ؆୯ʹܭࢉͰ͖Δɽ

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 40
PythonͩͬͨΒɻɻɻ statsmodels / sklearn.linear_model.*** 40

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 41
41 ࣗݾ঺հͱ͝ΊΜͳ͍͞ ౷ܭϞσϦϯά ղऍͱ൚Խ ઢܗճؼϞσϧ ·ͱΊ ਺ཧϞσϦϯά

ઢܗճؼϞσϧ ղऍλεΫ ؍ଌ͞Εͨσʔλͷੑ࣭Λௐ΂Δɽ ੑผ༧ଌϞσϧ αΠτAΛݟͯΔͷ͸உੑ͕ଟ͍ɽ

ઢܗճؼϞσϧ ղऍλεΫ ͜ͷCPAʢ੒໿͋ͨΓίετʣ͸ࢪࡦͷྑ͞ͷධՁͱͯ͠༗ޮ Ͱ΋ɽɽɽ ʮ2ஹԁग़ͨ͠ΔΘ ɼ2ԯCV΍Ζʯʹʼ͑ͬɾɾɾ ΋ͪΖΜແཧ͕͋Δ CV = 1
CPA · Cost

ઢܗճؼϞσϧ ղऍλεΫ ͜ͷCPAʢ੒໿͋ͨΓίετʣ͸ࢪࡦͷྑ͞ͷධՁͱͯ͠༗ޮ Ͱ΋ɽɽɽ ʮ2ஹग़ͨ͠ΔΘʯ ʹʼ 2ԯCVʁʁʁ ΋ͪΖΜແཧ͕͋Δ CV =
1 CPA · Cost y=x/CPA

ઢܗճؼϞσϧ ൚ԽλεΫ ະ஌ͷσʔλʹର͢Δ༧ଌੑೳࢸ্ओٛ • Neural Network • Gradient Boosting Decision
Tree • SVM with some kernel • Ridge/Lasso • Feature Hashing ౷ܭతͳ࿮૊ͷΈͰಈ͍͍ͯͳ͍෺͕ଟ͍ Α͘Θ͔ΒΜ͕Կނ͔౰ͨΔ

ઢܗճؼϞσϧ ൚ԽλεΫ minimize: loss(label, Feature) Feature Label

ཽ ܭ ౷ ొ ཧ ֬ ཰ ໳ ਺ 47
47 ࣗݾ঺հͱ͝ΊΜͳ͍͞ ౷ܭϞσϦϯά ղऍͱ൚Խ ઢܗճؼϞσϧ ·ͱΊ ਺ཧϞσϦϯά

• ਺ཧϞσϦϯάΛ༻͍Ε͹ݱ࣮ͷ໰୊Λ਺ֶͷϊ΢ ϋ΢ͰղܾͰ͖Δ • ౷ܭతͳςΫχοΫΛ࢖͏͜ͱͰߋʹॊೈʹ • ൚ԽͱղऍϞσϧ͸ผͷςΫχοΫ ·ͱΊ

ੈా୩۠ࡏॅ H.M͞Μ ʮ࠷ॳ͸ʰ͜Μͳॻ੶Ͱඞཁͳ஌͕ࣝΈʹͭ͘ͳΜͯɾɾɾʱͱ͍͏ؾ࣋ͪ ͋Γɺ൒৴൒ٙͰ͜ͷຊΛखʹऔΓ·ͨ͠ɻ͍͟खʹͱͬͯݟΔͱShell Script΍SQLͷجૅ͸΋ͪΖΜɼPythonʹΑΔ࣮ફతͳΞϓϦέʔγϣϯͷ ࡞Γํ·Ͱஸೡʹղઆ͞Ε͍ͯͯ༧૝Ҏ্ͷϘϦϡʔϜͰͨ͠ɻͱ͘ʹۤख ͩͬͨ౷ܭϞσϦϯά͸טΈࡅ͍ͯॻ͔Ε͍ͯͯऔֻ͔ͬΓʹ͸࠷ߴͩͬͨ ͱࢥ͍·͢ɻ2000ԁऑͱ͍͏Ձ֨΋ֶੜʹ͸خ͍͠Ͱ͢ɻࠓͰ͸ຖ೔൴ঁͱ ޾ͤʹ฻Βͯ͠ډ·͢ɻʯ ͨͳ͠ΎΜύΫͬͨ͝ΊΜ

FukuokaR #7

FukuokaR #7

More Decks by Hiroki Mizukami

Other Decks in Science

Featured

Transcript