Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
word2vecで女性向けQ&Aサイトを解析してみた
Search
tatsushim
June 17, 2015
Research
0
6.3k
word2vecで女性向けQ&Aサイトを解析してみた
2015/06/10
IVS CTO NightのLTで発表したプレゼン資料です。
word2vecにmamariQ内のテキストを使用してみました。
tatsushim
June 17, 2015
Tweet
Share
More Decks by tatsushim
See All by tatsushim
DockerとAmazon SageMakerで実現した機械学習システムのプロダクション移行
tatsushim
0
27k
コミュニティサービスにおける機械学習のためのアノテーション
tatsushim
0
2.2k
日本のママをコンテナで支える
tatsushim
1
3.1k
コネヒトが考える技術選択の仕方について
tatsushim
0
22k
コネヒトが考えるサービスづくりに必要な技術とその考え方について
tatsushim
2
3.2k
独身男性のためのデータドリブン講座
tatsushim
0
6.8k
Other Decks in Research
See All in Research
Unsupervised Domain Adaptation Architecture Search with Self-Training for Land Cover Mapping
satai
3
170
カスタマーサクセスの視点からAWS Summitの展示を考える~製品開発で活用できる勘所~
masakiokuda
2
200
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
230
SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images
satai
3
270
SSII2025 [TS1] 光学・物理原理に基づく深層画像生成
ssii
PRO
4
4.3k
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
170
近似動的計画入門
mickey_kubo
4
1k
Remote sensing × Multi-modal meta survey
satai
3
390
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1.9k
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
5
1.6k
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
3.3k
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
280
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
KATA
mclloyd
32
14k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.1k
A Tale of Four Properties
chriscoyier
160
23k
Speed Design
sergeychernyshev
32
1.1k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
Designing for humans not robots
tammielis
254
25k
The Cost Of JavaScript in 2023
addyosmani
53
9k
Balancing Empowerment & Direction
lara
4
660
Music & Morning Musume
bryan
46
6.8k
Building Adaptive Systems
keathley
43
2.8k
Transcript
word2vecͰঁੑ͚QˍA αΠτΛղੳͯ͠Έͨ Tatsuro Shimada <
[email protected]
> tatsushim @ Connehito, Inc
Connehito Inc. ౡాୡ࿕ʢ͠·ͩͨͭΖ͏ʣ • Connehito, Inc CTO • Πϯϑϥ͔Βϑϩϯτ·Ͱ •
͋ͱ͓՛ࢠͷങ͍ग़͠ PROFILE @tatsushim 2
ϚϚϦͱʁ Connehito Inc. 3
Connehito Inc. ϚϚϦjp (❨web)❩ ϚϚϦ2 (❨ΞϓϦ)❩ ϚϚϦKQ / ϚϚϦ2 ϝσΟΞ
ίϛϡχςΟ 4
Connehito Inc. ࣭ͷճ ˋ ճ͕ͭ͘·Ͱ ҎԼ ΞϓϦͷࡏ࣌ؒ Ҏ্ ѹతͳαʔϏεͷ
+VO +VM "VH 4FQ 0DU /PW %FD +BO 'FC લ݄ൺˋ ྦྷܭߘ ৷ɾग़࢈ͰΉਓͷ ਓʹਓ͕݄̍ΞΫηε 5
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 6 λʔήοτ ࢲ
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 7 ঁੑ λʔήοτ ࢲ
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 8 ঁੑ ϚϚ λʔήοτ ࢲ
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 9 ঁੑ ϚϚ λʔήοτ ࢲ
৷ ग़࢈
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 10 ঁੑ ϚϚ λʔήοτ ࢲ
உੑ ৷ ग़࢈
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 11 ঁੑ ϚϚ λʔήοτ ࢲ
உੑ ৷ ग़࢈ ಠΓ
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 12 ঁੑ ϚϚ λʔήοτ ࢲ
உੑ ಠΓ ৷ ग़࢈ Ͱ͖ͳ͍
ʘ(^o^)ʗ
ʘ(^o^)ʗ Ϣʔβʔͷ͜ͱཧղ͍ͨ͠ʂ
15
16 word2vec
None
Connehito Inc. • Tomas Mikolovࢯ (࣌Google, ݱFacebook)͕ఏҊ • ୯ޠಉ࢜ͷؔੑΛϕΫτϧͱͯ͠දݱ •
୯ޠͷྨࣅͷܭࢉ͠Ҿ͖͕Մೳ word2vecͱʁ 18
19
20 ۩ମྫΛݟͯΈΑ͏
word2vecͷදతͳ2ͭͷ͍ํ Connehito Inc. 21
Display similar words Connehito Inc. 22
None
ྨٛޠ
Interesting properties of the word vectors Connehito Inc. 25
Connehito Inc. 26 word2vecͷྫ vector(‘France')
Connehito Inc. 27 word2vecͷྫ - vector(‘Paris') vector(‘France')
Connehito Inc. 28 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) vector(‘France')
Connehito Inc. 29 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France')
Connehito Inc. 30 word2vecͷྫ vector(‘Paris')
Connehito Inc. 31 word2vecͷྫ - vector(‘France') vector(‘Paris')
Connehito Inc. 32 word2vecͷྫ - vector(‘France') + vector(‘Italy’) vector(‘Paris')
Connehito Inc. 33 word2vecͷྫ - vector(‘France') + vector(‘Italy’) = vector('Rome')
vector(‘Paris')
Connehito Inc. 34 word2vecͷྫ vector(‘king')
Connehito Inc. 35 word2vecͷྫ - vector(‘man') vector(‘king')
Connehito Inc. 36 word2vecͷྫ - vector(‘man') + vector(‘woman’) vector(‘king')
Connehito Inc. 37 word2vecͷྫ - vector(‘man') + vector(‘woman’) = vector('queen')
vector(‘king')
ཧͯ͠ΈΔ Connehito Inc. 38
Connehito Inc. 39 word2vecͷྫ - vector(‘Paris') vector(‘France')
Connehito Inc. 40 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) vector(‘France')
Connehito Inc. 41 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France')
Connehito Inc. 42 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France')}
Connehito Inc. 43 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ }
Connehito Inc. 44 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } +
Connehito Inc. 45 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } } +
Connehito Inc. 46 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } } ౦ژ +
Connehito Inc. 47 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } } ౦ژ + =
Connehito Inc. 48 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } } ౦ژ + = }
Connehito Inc. 49 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } } ౦ژ + = }౦ژΛटͱ͢Δࠃ
50
51 mamariQͰword2vecͯ͠ΈΔ
None
୯ޠͷҙຯΛද͢୯ޠ Connehito Inc. 53
Connehito Inc. 54 ʮಈʯin mamariQ Word: ಈ Word Cosine distance
------------------------------------------------------------------------ ҙ 0.527825 ϙίϙί 0.516658 ҧײ 0.432082 ಈ͖ 0.430563 ͠Όͬ͘Γ 0.406297 ͙͍ͬͨ͘͢ 0.386457 ಈ͍ 0.383030 ى෬ 0.381906 ϙίο 0.377959
Connehito Inc. 55 ʮυΫϯυΫϯʯin mamariQ Word: υΫϯυΫϯ Word Cosine distance
------------------------------------------------------------------------ ຺ଧͭ 0.454460 ϙίο 0.425674 Ͳ͘Ͳ͘ 0.425287 ϐΫο 0.418931 ಥͬுΔ 0.417948 ϐΫϐΫ 0.415464 લଆ 0.413287 ͭͬͺΔ 0.412516
Connehito Inc. 56 ʮೕ৯ʯin mamariQ Word: ೕ৯ Word Cosine distance
------------------------------------------------------------------------ ख͔ͮΈ 0.472250 ͔ͭΈ 0.445568 ॏ౬ 0.432616 ͓͔Ώ 0.425068 τΠτϨ 0.415463 ͨΜͺ࣭͘ 0.412253 ϕϏʔμϊϯ 0.393488 λϯύΫ࣭ 0.392157 ৯ࡐ 0.390477
୯ޠͱ୯ޠͷؔੑ Connehito Inc. 57
Connehito Inc. 58 vector(‘ެཱ') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 59 - vector(‘ଉࢠ') vector(‘ެཱ') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 60 - vector(‘ଉࢠ') + vector(‘່’) vector(‘ެཱ') ୯ޠͷ໘ന͍ؔੑ in
mamariQ
Connehito Inc. 61 - vector(‘ଉࢠ') + vector(‘່’) = vector('ࢲཱ') vector(‘ެཱ')
୯ޠͷ໘ന͍ؔੑ in mamariQ
62
63 ঁͷࢠͷํ͕ࢲཱΛݕ౼͢Δʁ
Connehito Inc. 64 vector(‘νϡʔϋΠ') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 65 - vector(‘͓͞Μ') vector(‘νϡʔϋΠ') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 66 - vector(‘͓͞Μ') + vector(‘͓͞Μ’) vector(‘νϡʔϋΠ') ୯ޠͷ໘ന͍ؔੑ in
mamariQ
Connehito Inc. 67 - vector(‘͓͞Μ') + vector(‘͓͞Μ’) = vector('Ϗʔϧ') vector(‘νϡʔϋΠ')
୯ޠͷ໘ന͍ؔੑ in mamariQ
68
69 உੑͷํ͕Ϗʔϧ͖ʁ
Connehito Inc. 70 vector(‘ՄѪ͍') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 71 - vector(‘ଉࢠ') vector(‘ՄѪ͍') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 72 - vector(‘ଉࢠ') + vector(‘່’) vector(‘ՄѪ͍') ୯ޠͷ໘ന͍ؔੑ in
mamariQ
Connehito Inc. 73 - vector(‘ଉࢠ') + vector(‘່’) = vector('ՄѪ͍') vector(‘ՄѪ͍')
୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 74 - vector(‘ଉࢠ') + vector(‘່’) = vector('ՄѪ͍') vector(‘ՄѪ͍')
୯ޠͷ໘ന͍ؔੑ in mamariQ ʊਓਓਓਓਓʊ ʼɹՄѪ͍ɹʻ ʉY^Y^Y^Y
None
ͨͩͷόΧ
ຊޠʹword2vecదԠ͢ΔࡍͷTips Connehito Inc. 77
Connehito Inc. 78 ຊޠʹword2vecదԠ͢ΔࡍͷTips
Connehito Inc. • ࣙॻʹmecab-ipadic-neologdΛ͏ - Web্ͷݴޠࢿݯ͔Βಘͨ৽ޠʹରԠ 79 ຊޠʹword2vecదԠ͢ΔࡍͷTips
Connehito Inc. • ࣙॻʹmecab-ipadic-neologdΛ͏ - Web্ͷݴޠࢿݯ͔Βಘͨ৽ޠʹରԠ 80 ຊޠʹword2vecదԠ͢ΔࡍͷTips • ۀքݻ༗ͷϫʔυͪΌΜͱొ͢Δ
- Ex. 24w3d = ৷͔Β24िͱ3
Connehito Inc. • ࣙॻʹmecab-ipadic-neologdΛ͏ - Web্ͷݴޠࢿݯ͔Βಘͨ৽ޠʹରԠ 81 ຊޠʹword2vecదԠ͢ΔࡍͷTips • ύϥϝʔλௐ
- Ex. αʔϏεʹ߹Θͤͨwindow sizeΛ • ۀքݻ༗ͷϫʔυͪΌΜͱొ͢Δ - Ex. 24w3d = ৷͔Β24िͱ3
82
83 ݁ہԿʹ͑Δͷ͔ʁ
Connehito Inc. 84 Ԡ༻ઌ
Connehito Inc. • ྨٛޠݕग़ 85 Ԡ༻ઌ
Connehito Inc. • ྨٛޠݕग़ 86 • QˍAίϛχϡχςΟͰQʹରͯ͠࠷ྑ ͍ճΛܾΊΔͱ͖ͷfeatureʹ͏ͱ͔(࣮ ࡍԠ༻ͨ͠จ͕͋Δ) Ԡ༻ઌ
Connehito Inc. • ྨٛޠݕग़ 87 • QˍAίϛχϡχςΟͰQʹରͯ͠࠷ྑ ͍ճΛܾΊΔͱ͖ͷfeatureʹ͏ͱ͔(࣮ ࡍԠ༻ͨ͠จ͕͋Δ) •
͍͔ͭ͘Ծઆ͕͋ΔͷͰɺ্ख͘ߦͬͨΒ จʹͯ͠ൃ৴͍͖ͯ͠·͢ Ԡ༻ઌ
͜͜·Ͱ͕word2vecͷ͓ Connehito Inc. 88
Connehito Inc. • Ҏ্͕ɺword2vecΛͬͯΈ͓ͨͰ͢ 89 • IVS CTO NightॳࢀՃͰϫΫϫΫͯ͠·͢ •
͜͏͍͏RˍDΛΈΜͳ͍ͭͬͯɺͲ͏ औΓೖΕͯΔͷ͔Γ͍ͨ • ͜ͷޙྑ͔ͬͨΒ͓͍ͤͯͩ͘͞͞ վΊ͓ͯٓ͘͠ئ͍͠·͢ʂ
Connehito Inc. • Ҏ্͕ɺword2vecΛͬͯΈ͓ͨͰ͢ 90 • IVS CTO NightॳࢀՃͰϫΫϫΫͯ͠·͢ •
͜͏͍͏RˍDΛΈΜͳ͍ͭͬͯɺͲ͏ औΓೖΕͯΔͷ͔Γ͍ͨ • ͜ͷޙྑ͔ͬͨΒ͓͍ͤͯͩ͘͞͞ վΊ͓ͯٓ͘͠ئ͍͠·͢ʂ ͝ਗ਼ௌ༗͏͍͟͝·ͨ͠ʂ