Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
Search
Hidehisa Arai
March 02, 2021
Technology
7
4.7k
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
2021/3/2に開催されたsansan DSOC分析コンペ反省会の資料です
Hidehisa Arai
March 02, 2021
Tweet
Share
More Decks by Hidehisa Arai
See All by Hidehisa Arai
生成AIの二大潮流と自動運転
koukyo1994
22
23k
ICML2021論文読み会資料
koukyo1994
2
1.6k
【2019-06-19】アルゴリズム勉強会 - 最小全域木
koukyo1994
0
240
Kaggle昔?話
koukyo1994
2
2.4k
コンペ中のコード、どうしてる?
koukyo1994
3
2.1k
変数間の関係を捉えたいあなたへ
koukyo1994
3
1.6k
鳥蛙コンペ反省会資料
koukyo1994
3
1.4k
6th place solution to Cornell Birdcall Identification Challenge
koukyo1994
0
150
鳥コンペ反省会資料
koukyo1994
2
6.2k
Other Decks in Technology
See All in Technology
衛星運用をソフトウェアエンジニアに依頼したときにできあがるもの
sankichi92
1
880
Delegating the chores of authenticating users to Keycloak
ahus1
0
180
shake-upを科学する
rsakata
7
1k
An introduction to Claude Code SDK
choplin
1
240
Digitization部 紹介資料
sansan33
PRO
1
4.5k
microCMSではじめるAIライティング
himaratsu
0
150
CDK Toolkit Libraryにおけるテストの考え方
smt7174
1
540
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.7k
american aa airlines®️ USA Contact Numbers: Complete 2025 Support Guide
aaguide
0
500
CDK Vibe Coding Fes
tomoki10
1
620
スタックチャン家庭用アシスタントへの道
kanekoh
0
120
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
13k
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
Building an army of robots
kneath
306
45k
Adopting Sorbet at Scale
ufuk
77
9.5k
Music & Morning Musume
bryan
46
6.7k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
108
19k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
Facilitating Awesome Meetings
lara
54
6.5k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Code Review Best Practice
trishagee
69
19k
Unsuck your backbone
ammeep
671
58k
Six Lessons from altMBA
skipperchong
28
3.9k
Transcript
%FFQͰϙϯ🎶 ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹ TBOTBO %40$ੳίϯϖษڧձ )JEFIJTB"SBJ !LBHHMF@BSBJTBO 1
ࣗݾհ • ݄͔Β৽ଔ • ͔ͭͯTBOTBOͰΠϯλʔϯ Λ͍ͯͨ͜͠ͱ͕͋Δ • େֶӃͷઐ߈ߤۭӉ ֶ͕ͩɺදݱֶशͷݚڀΛ͠ ͍ͯͨ
• ੳίϯϖ,BHHMFҰے 2
͡Ίʹ ͜ͷൃදͷఆ͍ͯ͠Δର • ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠ Δ͚ΕͲɺͦͷޙͲ͏͢Ε͍͍͔͔ Βͳ͍,BHHMFS • ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚ Ͳɺ͍·͍͔ͪͬͨؾʹͳΕͳ͍ํ •
,BHHMF࣮ͬͯࡍϋΠύϥνϡʔχϯάͱ Ξϯαϯϒϧήʔ͡Όͳ͍ͷʁͬͯࢥͬ ͍ͯΔํ 3 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? Kaggleの解法は「何をやったのか」が書いて あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの?c
ཧղ ੳίϯϖ͕ͬͱ໘ന͘ͳΔεςοϓ 4 ՝ͷ͍͠ͱ͜ΖΛཧղ͢Δ ࠷ۙͷ,BHHMFͰɺͨͩ$//ʹ৯Θͤͯ ऴΘΓʂͱ͍͏՝·ͣग़ͳ͍ ղ ஔ ՝Λখ͞ͳ՝ʹղ͢Δɻ খ͞ͳ՝Λطͷʹஔ͖͑Δ
「可能な書記素は約10,000あり、そのうち約1,000がトレーニ ングセットに含まれています。テストセットには、トレイン には存在しないが新しい書記素コンポーネントがないいくつ かの書記素が含まれています」 ςετηοτʹະͷσʔλ͕͋Δ ίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ ςετηοτʹະͷσʔλ͕͋Δ 0VUPG%JTUSJCVUJPO%FUFDUJPO ίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ ;FSP4IPU-FBSOJOH
εςοϓᶃ ՝Λཧղ͢Δ 5 ʮը૾Λྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫͦΕҎ֎ʹผͷ͕͋͠͞Δ͜ͱ͕ଟ͍ Կ͕͍͔͠ɺͱ͍͏ͷʮ%BUB%FTDSJQUJPOʯʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ͋Δ • 5SBJOͱ5FTUͷͷҧ͍ • σʔλͷϊΠζྔͷࠩ
• Ϋϥεͷൺͷࠩ • 5FTUʹ5SBJOʹͳ͔ͬͨϥϕϧ͕͋Δ $PSOFMM#JSEDBMM*EFOUJGJDBUJPO 3BJOGPSFTU$POOFDUJPO4QFDJFT"VEJP%FUFDUJPO • λʔήοτͱͳΔ໐͖͕શͯΞϊςʔγϣ ϯ͞Ε͍ͯΔΘ͚Ͱͳ͍ • $7ͱ-#͕૬ؔ͠ͳ͍ https://qiita.com/inoichan/items/140cf018d31151d2701a
εςοϓᶄ ՝Λղ͢Δ 6 ݟ͔ͭͬͨ՝͕ͦΕͧΕͲͷΑ͏ͳؔʹ͋Δ͔Λߟ͑ɺରࡦՄೳͳ՝͕ग़ͯ͘Δ·Ͱղ͢Δ 「ターゲットとなる鳴き声が全てアノ テーションされているわけではない」 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 「CVとLBが相関しない」
「ラベルがついていない部分が あるためCVの計算が不正確」 対策可能な課題 対策が難しい? ͱ͖ʹؒΛຒΊ ͯΔඞཁ͋Δ ରࡦΛࢥ͍͚ͭʮରࡦՄೳͳ՝ʯ
εςοϓᶅ ՝Λஔ͖͑Δ 7 ՝Λطͷྨࣅͷ՝ʹஔ͖͑Δ 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 ͳͥஔ͖͑Λ͢Δͷ͔ʁ ମܥԽ͞ΕͨࣝΛ͑Δ
• ͕ࣗΉΑ͏ͳ՝େମಉ͜͡ͱʹΜ ͩਓ͕͍ͯɺղ๏͕Ͳ͔͜ʹ͋Δ • ֶମܥͷݴ༿ʹஔ͖͑Δͱݕࡧੑ͕ྑ͘ ͳΔ • ͱ͖ʹͷղͷղ૾্͕͕Δ ίϯϖͷ՝ΛநԽ͢Δ͜ͱͰࠓޙͷίϯϖͰ ͦͷܦݧΛ׆͔ͤΔ ʮطͷྨࣅͷ՝ʯͷϓʔϧ,BHHMFΛͬͯ ͍ͳ͍࣌Ͱେ͖͘Ͱ͖Δ • ,BHHMFΛ͍ͬͯͳͯ͘,BHHMFͰڧ͘ͳΕ Δ .JTTJOH-BCFMT 「ラベルの誤りがある」 -BCFM/PJTF 「TrainとTestで分布が異なる」 %PNBJO4IJGU
·ͱΊ 8 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? ཧղɾղɾஔͷεςοϓΛ܁Γฦ͠ɺग़ ͖ͯͨ՝Λݸผʹ௵͍ͯ͘͠͏ͪʹଞͷਓ͕ ͍ͬͯͳ͍ղ๏ʹͳΔ Kaggleの解法は「何をやったのか」が書いて
あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? Ͳ͏͍͏՝͕͋ͬͨͷ͔ ཧղͷεςοϓ ɺ ʹͯ͠ߟ͑Δͱ্Ґͷղ๏ʹೲಘײ͕ಘ ΒΕΔ TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの? ϋΠύϥνϡʔχϯάΞϯαϯϒϧવେ ࣄ͕ͩɺݸʑͷ՝ʹଈͨ͠ରࡦ͕ॏཁɺͦ͜ ্͕ҐͱͦΕҎ֎ͷࠩʹͳ͍ͬͯΔ