Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
Search
Hidehisa Arai
March 02, 2021
Technology
4.8k
7
Share
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
2021/3/2に開催されたsansan DSOC分析コンペ反省会の資料です
Hidehisa Arai
March 02, 2021
More Decks by Hidehisa Arai
See All by Hidehisa Arai
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2.1k
生成AIの二大潮流と自動運転
koukyo1994
22
25k
ICML2021論文読み会資料
koukyo1994
2
1.6k
【2019-06-19】アルゴリズム勉強会 - 最小全域木
koukyo1994
0
290
Kaggle昔?話
koukyo1994
2
2.6k
コンペ中のコード、どうしてる?
koukyo1994
3
2.3k
変数間の関係を捉えたいあなたへ
koukyo1994
3
1.8k
鳥蛙コンペ反省会資料
koukyo1994
3
1.5k
6th place solution to Cornell Birdcall Identification Challenge
koukyo1994
0
190
Other Decks in Technology
See All in Technology
AWS DevOps Agentはチームメイトになれるのか?/ Can AWS DevOps Agent become a teammate
kinunori
6
770
Standards et agents IA : un tour d’horizon de MCP, A2A, ADK et plus encore
glaforge
0
190
AI時代における技術的負債への取り組み
codenote
1
1.7k
CloudTrail を見つめ直してみる
kazzpapa3
1
120
[OpsJAWS 40]リリースしたら終わり、じゃなかった。セキュリティ空白期間をAWS Security Agentで埋める
sh_fk2
3
250
Do Vibe Coding ao LLM em Produção para Busca Agêntica - TDC 2026 - Summit IA - São Paulo
jpbonson
3
150
社内エンジニア勉強会の醍醐味と苦しみ/tamadev
nishiuma
0
240
Anthropic「Long-running a gents」をGeminiで再現してみた
tkikuchi
0
240
コミュニティ・勉強会を作るのは目的じゃない
ohmori_yusuke
0
260
20260428_Product Management Summit_Loglass_JoeHirose
loglassjoe
3
3.7k
AI時代のガードレールとしてのAPIガバナンス
nagix
0
310
M5Stack CoreS3とZephyr(RTOS)で Edge AIっぽいことしてみた
iotengineer22
0
290
Featured
See All Featured
How Software Deployment tools have changed in the past 20 years
geshan
0
33k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.9k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.5k
We Have a Design System, Now What?
morganepeng
55
8.1k
Stop Working from a Prison Cell
hatefulcrawdad
274
21k
The untapped power of vector embeddings
frankvandijk
2
1.7k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
30 Presentation Tips
portentint
PRO
1
280
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9k
Code Review Best Practice
trishagee
74
20k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
53k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
540
Transcript
%FFQͰϙϯ🎶 ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹ TBOTBO %40$ੳίϯϖษڧձ )JEFIJTB"SBJ !LBHHMF@BSBJTBO 1
ࣗݾհ • ݄͔Β৽ଔ • ͔ͭͯTBOTBOͰΠϯλʔϯ Λ͍ͯͨ͜͠ͱ͕͋Δ • େֶӃͷઐ߈ߤۭӉ ֶ͕ͩɺදݱֶशͷݚڀΛ͠ ͍ͯͨ
• ੳίϯϖ,BHHMFҰے 2
͡Ίʹ ͜ͷൃදͷఆ͍ͯ͠Δର • ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠ Δ͚ΕͲɺͦͷޙͲ͏͢Ε͍͍͔͔ Βͳ͍,BHHMFS • ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚ Ͳɺ͍·͍͔ͪͬͨؾʹͳΕͳ͍ํ •
,BHHMF࣮ͬͯࡍϋΠύϥνϡʔχϯάͱ Ξϯαϯϒϧήʔ͡Όͳ͍ͷʁͬͯࢥͬ ͍ͯΔํ 3 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? Kaggleの解法は「何をやったのか」が書いて あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの?c
ཧղ ੳίϯϖ͕ͬͱ໘ന͘ͳΔεςοϓ 4 ՝ͷ͍͠ͱ͜ΖΛཧղ͢Δ ࠷ۙͷ,BHHMFͰɺͨͩ$//ʹ৯Θͤͯ ऴΘΓʂͱ͍͏՝·ͣग़ͳ͍ ղ ஔ ՝Λখ͞ͳ՝ʹղ͢Δɻ খ͞ͳ՝Λطͷʹஔ͖͑Δ
「可能な書記素は約10,000あり、そのうち約1,000がトレーニ ングセットに含まれています。テストセットには、トレイン には存在しないが新しい書記素コンポーネントがないいくつ かの書記素が含まれています」 ςετηοτʹະͷσʔλ͕͋Δ ίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ ςετηοτʹະͷσʔλ͕͋Δ 0VUPG%JTUSJCVUJPO%FUFDUJPO ίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ ;FSP4IPU-FBSOJOH
εςοϓᶃ ՝Λཧղ͢Δ 5 ʮը૾Λྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫͦΕҎ֎ʹผͷ͕͋͠͞Δ͜ͱ͕ଟ͍ Կ͕͍͔͠ɺͱ͍͏ͷʮ%BUB%FTDSJQUJPOʯʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ͋Δ • 5SBJOͱ5FTUͷͷҧ͍ • σʔλͷϊΠζྔͷࠩ
• Ϋϥεͷൺͷࠩ • 5FTUʹ5SBJOʹͳ͔ͬͨϥϕϧ͕͋Δ $PSOFMM#JSEDBMM*EFOUJGJDBUJPO 3BJOGPSFTU$POOFDUJPO4QFDJFT"VEJP%FUFDUJPO • λʔήοτͱͳΔ໐͖͕શͯΞϊςʔγϣ ϯ͞Ε͍ͯΔΘ͚Ͱͳ͍ • $7ͱ-#͕૬ؔ͠ͳ͍ https://qiita.com/inoichan/items/140cf018d31151d2701a
εςοϓᶄ ՝Λղ͢Δ 6 ݟ͔ͭͬͨ՝͕ͦΕͧΕͲͷΑ͏ͳؔʹ͋Δ͔Λߟ͑ɺରࡦՄೳͳ՝͕ग़ͯ͘Δ·Ͱղ͢Δ 「ターゲットとなる鳴き声が全てアノ テーションされているわけではない」 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 「CVとLBが相関しない」
「ラベルがついていない部分が あるためCVの計算が不正確」 対策可能な課題 対策が難しい? ͱ͖ʹؒΛຒΊ ͯΔඞཁ͋Δ ରࡦΛࢥ͍͚ͭʮରࡦՄೳͳ՝ʯ
εςοϓᶅ ՝Λஔ͖͑Δ 7 ՝Λطͷྨࣅͷ՝ʹஔ͖͑Δ 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 ͳͥஔ͖͑Λ͢Δͷ͔ʁ ମܥԽ͞ΕͨࣝΛ͑Δ
• ͕ࣗΉΑ͏ͳ՝େମಉ͜͡ͱʹΜ ͩਓ͕͍ͯɺղ๏͕Ͳ͔͜ʹ͋Δ • ֶମܥͷݴ༿ʹஔ͖͑Δͱݕࡧੑ͕ྑ͘ ͳΔ • ͱ͖ʹͷղͷղ૾্͕͕Δ ίϯϖͷ՝ΛநԽ͢Δ͜ͱͰࠓޙͷίϯϖͰ ͦͷܦݧΛ׆͔ͤΔ ʮطͷྨࣅͷ՝ʯͷϓʔϧ,BHHMFΛͬͯ ͍ͳ͍࣌Ͱେ͖͘Ͱ͖Δ • ,BHHMFΛ͍ͬͯͳͯ͘,BHHMFͰڧ͘ͳΕ Δ .JTTJOH-BCFMT 「ラベルの誤りがある」 -BCFM/PJTF 「TrainとTestで分布が異なる」 %PNBJO4IJGU
·ͱΊ 8 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? ཧղɾղɾஔͷεςοϓΛ܁Γฦ͠ɺग़ ͖ͯͨ՝Λݸผʹ௵͍ͯ͘͠͏ͪʹଞͷਓ͕ ͍ͬͯͳ͍ղ๏ʹͳΔ Kaggleの解法は「何をやったのか」が書いて
あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? Ͳ͏͍͏՝͕͋ͬͨͷ͔ ཧղͷεςοϓ ɺ ʹͯ͠ߟ͑Δͱ্Ґͷղ๏ʹೲಘײ͕ಘ ΒΕΔ TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの? ϋΠύϥνϡʔχϯάΞϯαϯϒϧવେ ࣄ͕ͩɺݸʑͷ՝ʹଈͨ͠ରࡦ͕ॏཁɺͦ͜ ্͕ҐͱͦΕҎ֎ͷࠩʹͳ͍ͬͯΔ