Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
word2vecを利用した埋め込み分析とSWEMを用いた比較実験
Search
Takanobu Nozawa
February 27, 2021
Programming
0
2.1k
word2vecを利用した埋め込み分析とSWEMを用いた比較実験
atmaCup#9 オンサイトデータコンペ振り返り回で発表した資料です。
word2vecを利用した埋め込み分析とSWEMを用いた比較実験について述べています。
Takanobu Nozawa
February 27, 2021
Tweet
Share
More Decks by Takanobu Nozawa
See All by Takanobu Nozawa
低コストで実現する社内文書RAG機能を搭載したAIチャットボット開発
takapy
3
560
コミュニティサービスに「あなたへ」フィードを リリースするまでの試行錯誤
takapy
1
640
NLPを活用したオンボーディング改善とコールドスタート問題への対策
takapy
4
4.6k
自然言語可視化ライブラリ 「nlplot」のご紹介
takapy
3
3.6k
コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて
takapy
2
6.4k
SageMaker StudioとStep Functionsを用いてMLOpsへの一歩を踏み出そう
takapy
0
7.5k
GoogleColabとVSCodeを用いた分析環境運用Tips
takapy
15
13k
トピックモデルを活用したレコメンデーションの実装
takapy
0
6.1k
Streamlitとnlplotを使って自然言語を分析してみた
takapy
4
13k
Other Decks in Programming
See All in Programming
標準ライブラリの動向とイテレータのパフォーマンス
makki_d
3
180
Unlocking Python's Core Magic
leew
0
100
VS Code extension: ドラッグ&ドロップでファイルを並び替える
ttrace
0
130
Beyond the RuboCop Defaults
koic
2
480
Kubernetes上でOracle_Databaseの運用を楽にするOraOperatorの紹介
nnaka2992
0
140
Go製CLIツールGatling Commanderによる負荷試験実施の自動化
okmtz
3
640
PHPを書く理由、PHPを書いていて良い理由 / Reasons to write PHP and why it is good to write PHP
seike460
PRO
5
270
色んなオートローダーを覗き見る #phpcon_okinawa
o0h
PRO
5
360
実践Dash - 手を抜きながら本気で作るデータApplicationの基本と応用 / Dash for Python and Baseball
shinyorke
2
210
利用者視点で考える、イテレータとの上手な付き合い方
syumai
4
210
"Swarming" をコンセプトに掲げるアジャイルチームのベストプラクティス
boykush
1
150
為醫療加裝Python的引擎
cclai999
0
270
Featured
See All Featured
Optimising Largest Contentful Paint
csswizardry
31
2.8k
Facilitating Awesome Meetings
lara
49
6k
We Have a Design System, Now What?
morganepeng
49
7.1k
Code Reviewing Like a Champion
maltzj
519
39k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
355
29k
4 Signs Your Business is Dying
shpigford
180
21k
Product Roadmaps are Hard
iamctodd
PRO
48
10k
No one is an island. Learnings from fostering a developers community.
thoeni
19
2.9k
The Invisible Side of Design
smashingmag
297
50k
Design by the Numbers
sachag
278
19k
The Power of CSS Pseudo Elements
geoffreycrofte
71
5.3k
Designing with Data
zakiwarfel
98
5.1k
Transcript
word2vecΛར༻ͨ͠ຒΊࠐΈੳͱ SWEMΛ༻͍ͨൺֱ࣮ݧ Takanobu Nozawa 2021.02.18 atmaCup#9 ΦϯαΠτσʔλίϯϖৼΓฦΓճ
ࣗݾհ XPSEWFDͱ XPSEWFDΛJUFNʹԠ༻ 48&.Λ༻͍ͯൺֱ࣮ݧ ·ͱΊ ΞδΣϯμ
ࣗݾհ
໊લɿᖒরʢ/P[BXB5BLBOPCVʣ ॴଐɿίωώτגࣜձࣾ ɹɹɿ!UBLBQZ w ػցֶशʢ/-1ɺਪનγεςϜʣΛϝΠϯʹΓͭͭ"84ͱٔΕ͍ͯ·͢ w σʔλੳίϯϖͨ͠ΓɺϒϩάʢIUUQTXXXUBLBQZXPSLʣॻ͍ͨΓɺɹɹɹɹɹ ٿͨ͠Γɺϥʔϝϯ৯ͨΓ͍ͯ͠·͢ w ࠷ۙϙουΩϟετ🎙
͡Ί·ͨ͠ˠ!HFG@GNʢIUUQTUXJUUFSDPNHFG@GNʣ ࣗݾհ
ࠓճͷBUNB$VQҐͰͨ͠ʢਫ਼ਐ͠·͢ʣ ࣗݾհ
XPSEWFDͱ
˞IUUQTBSYJWPSHBCT XPSEWFDͱ w ʹ(PPHMFͷݚڀऀ͕ൃදͨ͠ख๏ʢ˞ʣ w ಛఆͷ୯ޠͷۙ͘ʹ͋Δ୯ޠ܈Λ༧ଌͰ͖ΔΑ͏ʹ χϡʔϥϧωοτΛֶशͤͯ͞ɺ୯ޠͷࢄදݱΛऔಘͰ͖Δ w ʮ,JOH.BO 8PNBO2VFFOʯ
จ͔ΒҾ༻ʢ˞ʣ
XPSEWFDͱ $#08ͱTLJQHSBNͷͭͷϞσϧ͕͋Δ ɹྫɿZPVTBZHPPECZFBOE*TBZIFMMP ࢀߟɿIUUQTXXXUBLBQZXPSLFOUSZ
XPSEWFDͱ ࠓճ༻͍ͨͷTLJQHSBN ʢଟ͘ͷ߹ɺ୯ޠͷࢄදݱͱ͍͏ʹ͓͍ ͯɺTLJQHSBNͷํ͕ྑ͍݁Ռ͕ಘΒΕΔ͜ ͱ͕ଟ͍ʣ ࢀߟɿIUUQTXXXUBLBQZXPSLFOUSZ
XPSEWFDͱ HFOTJNΛ༻͍Δͱൺֱత༰қʹ࣮Մೳ ʢBUNB$VQͷ%JTDVTTJPOʹ࣮ίʔυ͋͛ͯ·͢☺ ʣ
XPSEWFDΛJUFNʹԠ༻
XPSEWFDΛJUFNʹԠ༻ w εʔύʔجຊతʹಋઢ͕ઃܭ͞Ε͍ͯΔ࣌ܥྻ ੨Ռˠڕˠˠೕˠ͓՛ࢠˠࡊˠύϯˠҿྉʜ w ʢܦݧతʹʣεʔύʔߦͬͨΒجຊతʹಉ͡Α͏ͳͷΛങ͏ʹ ͋Δ w ճͷങ͍ϩάΛͭͷTFOUFODFͱΈͳͤɺͦΕͳΓͷࢄදݱ ͕ܭࢉͰ͖ΔͷͰʁͦΕͰϢʔβʔͷຒΊࠐΈΛܭࢉ͢Ε্ख͘
͍͘ͷͰʁͱ͍͏͜ͱͰ࣮ݧͨ͠
σʔλͷ࡞Γํ
σʔλͷ࡞Γํ w TQFOE@UJNFͷσʔλΛҙਤతʹʮϨδΧʔτىಈʯ ʹͯ͠ܭࢉʹؚΊͨ
σʔλͷ࡞Γํ w TFTTJPOΛTFOUFODFͱΈͳͯ͠DPSQVTΛੜ DPSQVT
JUFNWFDͷֶश݁Ռ
JUFNWFDͷֶश݁Ռ w ͍͔ͭ͘ͷJUFNͰ͍ۙJUFNΛදࣔͯ͠ࢄදݱΛఆੑత ʹ֬ೝ
JUFNWFDͷֶश݁Ռ w 6."1Ͱ̎࣍ݩѹॖͯ֬͠ೝ ʢBEKVTU5FYUͱ͍͏ϥΠϒϥϦΛ͏ͱɺϥϕϧ͕ॏͳΒͳ͍Α͏ʹϓϩοτͰ͖·͢☺ ʣ
JUFNWFDͷֶश݁Ռ w 6."1Ͱ̎࣍ݩѹॖͯ֬͠ೝ ʢBEKVTU5FYUͱ͍͏ϥΠϒϥϦΛ͏ͱɺϥϕϧ͕ॏͳΒͳ͍Α͏ʹϓϩοτͰ͖·͢☺ ʣ ྑͦ͞͏☺
JUFNͷࢄදݱΛಛྔԽ͢Δ
JUFNͷࢄදݱΛಛྔԽ͢Δ w ֤JUFNͷࢄදݱఆੑతʹ֬ೝͯͦ͠ΕͳΓͷ͕ܭࢉ͞Ε͍ͯΔ ͜ͱ͕֬ೝͰ͖ͨ w ͜ΕΛֶशʹ͑Δܗʹམͱ͠ࠐΈ͍ͨ ˠࠓճ48&.ͱ͍͏ख๏ͰϢʔβʔͷຒΊࠐΈϕΫτϧΛܭࢉ͢Δ
48&.ͱʁ w 4JNQMF8PSE&NCFEEJOHCBTFE.FUIPET w ୯ޠຒΊࠐΈͷΈΛར༻ͯ͠จষຒΊࠐΈΛܭࢉ͢Δํ๏ʢ˞ʣ w จͰԼهͭͷख๏͕ఏҊ͞Ε͍ͯΔ 㾎 48&.BWFSɿ୯ޠͷࢄදݱʹରͯ͠BWFSBHFQPPMJOH͢Δʢίϯϖظؒத࣌ؒͳ͔ ͬͨͷͰ͜Ε͚ͩΛ࣮ݧʣ
㾎 48&.NBYɿ୯ޠͷࢄදݱʹରͯ͠NBYQPPMJOH͢Δ 㾎 48&.DPODBUɿ48&.BWFSͱ48&.NBYͷ݁ՌΛ݁߹͢Δ 㾎 48&.IJFSɿOHSBNͷΑ͏ʹݻఆͷΟϯυͰBWFSBHFQPPMJOHͨ݁͠Ռʹରͯ͠ NBYQPPMJOH͢Δ ˞ɿIUUQTBSYJWPSHBCTW
48&.Ͱݕূ
48&.Ͱݕূ w ༻ͨ͠ಛྔ " Ϣʔβʔͷଐੑใʢྸɾੑผʣ # ങ͍ͷ࣌ؒใʢ݄ɾ࣌ɾ༵ͳͲʣ $ JUFNͷࢄදݱ͔Βܭࢉͨ͠ϢʔβʔຒΊࠐΈϕΫτϧʢ48&.ʣ ˞UFTUʹ͚ͩଘࡏ͢ΔϢʔβʔྸͷฏۉϕΫτϧͰิ
w ͔ͤͬ͘ͳͷͰɺԼهछྨͷಛྔͰൺֱ࣮ݧΛ࣮ࢪ ‣ "#͚ͩͷಛྔʢϕʔεϥΠϯʣ ‣ "#$ͷಛྔʢ$લड़ͨ͠छྨʣ ‣ Ϟσϧ-JHIU(#.GPME 48&.ͷ࣮ίʔυαϯϓϧ(JUIVCϦϙδτϦʹ͋͛·ͨ͠ˠIUUQTHJUIVCDPNUBLBQZHFFL@CMPHCMPCNBTUFSOMQTXFNQZ
ݕূ݁Ռ
ݕূ݁Ռ ࣮ݧ Local Public Private ϕʔεϥΠϯʢ24 featuresʣ 0.6037 0.5652 0.5802
SWEM-averʢ74 featuresʣ 0.8057 0.7476 0.7461 SWEM-maxʢ74 featuresʣ 0.7127 0.6599 0.6633 SWEM-concatʢ124 featuresʣ 0.8057 0.7435 0.7424 SWEM-hierʢ74 featuresʣ 0.8092 0.7484 0.7483
·ͱΊ
·ͱΊ w XPSEWFDΛ༻͍֤ͯJUFNͷࢄදݱΛܭࢉ͠ɺ͔ͦ͜Β48&.Ͱ ϢʔβʔͷຒΊࠐΈϕΫτϧΛܭࢉͯ͠Έͨ w ൺֱݕূ͢ΔͱɺຊλεΫͰ48&.IJFS͕Ұ൪ྑ͍ਫ਼ͩͬͨ w ࠓճϢʔβʔใΛͲ͏ͬͯಛྔʹམͱ͠ࠐΉ͔͕ͭॏཁͳ ϙΠϯτͩͬͨ48&.Ͱࢉग़ͨ͠ϢʔβʔͷຒΊࠐΈϕΫτϧ ͦͦ͜͜༗༻ͳಛྔʹͳΔ͜ͱ͕͔ͬͨ
w ӡӦͷօ༷ɺָ͍͠ίϯϖΛ͋Γ͕ͱ͏͍͟͝·ͨ͠ʂ😆🎉
࠷ޙʹ
.-ΤϯδχΞઈࢍืूதͰ͢ʂ🧑💻 ɾϥΠϑΠϕϯτ ϥΠϑελΠϧͷ՝ղܾΛ͢ΔαʔϏεʹڵຯ͕͋Δํ ɾػցֶशͷࣾձ࣮ ϓϩμΫτ։ൃʹڵຯͷ͋Δํ %.PSͦ͘ΊΜ܅ܦ༝PS8BOUFEMZܦ༝ͳͲ͝࿈བྷ͓͍ͪͯ͠·͢ʂ ΧδϡΞϧ໘ஊͰ͑ΒΕΔൣғͰͳΜͰ͑·͢ʂʢಛʹ४උ͍Γ·ͤΜʣ 5XJUUFSˠIUUQTUXJUUFSDPNUBLBQZ 8F`SF)JSJOH
͓ΘΓ ͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠ʂ