Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MeCabとKerasを使ったテキスト分類
Search
masa-ita
February 23, 2019
Technology
1
440
MeCabとKerasを使ったテキスト分類
masa-ita
February 23, 2019
Tweet
Share
More Decks by masa-ita
See All by masa-ita
Run Instant NeRF on Docker
itagakim
1
2k
3D Clustering and Metric Learning
itagakim
0
250
Cloud TPUの使い方〜BigBirdの日本語学習済みモデルを作る〜
itagakim
0
590
多言語学習済みモデルmT5とは?
itagakim
1
530
AWSのGPUを安く使ってTensorFlowモデルを訓練する方法
itagakim
0
290
最近の自然言語処理モデルの動向
itagakim
1
510
ディープラーニングで芸術はできるか?〜生成系ネットワークの進展〜
itagakim
0
270
AWSとTerraform初心者がやってみたこと
itagakim
1
400
IntroductionToTensorFlow2_0.pdf
itagakim
1
300
Other Decks in Technology
See All in Technology
Jetpack Compose Modifier 徹底解説 / Jetpack Compose Modifier
wiroha
0
200
「認証認可」という体験をデザインする ~Nekko Cloud認証認可基盤計画
logica0419
2
450
DevRelの始め方
moongift
PRO
2
390
App Router を実プロダクトで採用して見えてきた勘所をちょっとだけ紹介
marokanatani
1
930
なにもしてないのにNew Relicのデータ転送量が増えていたときに確認したこと
tk3fftk
2
230
GC24 Recap: Interface Internals
task4233
0
160
Agile in Automotive Industry, puzzles and lights.
hiranabe
3
1.4k
『GRANBLUE FANTASY: Relink』最高の「没入感」を実現するカットシーン制作手法とそれを支える技術
cygames
1
140
あなたの知らないiOS開発の世界
recruitengineers
PRO
3
180
DroidKaigi 2024 たすけて!ViewModel
mhidaka
5
960
【株式会社ELYZA】|GENIAC成果報告会 自社開発モデルプレゼンテーション
elyza
1
310
サプライチェーン攻撃に備える
ryunen344
0
290
Featured
See All Featured
Visualization
eitanlees
142
15k
Designing for humans not robots
tammielis
248
25k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
248
20k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
166
48k
Typedesign – Prime Four
hannesfritz
39
2.3k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
The Art of Programming - Codeland 2020
erikaheidi
48
13k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
The Brand Is Dead. Long Live the Brand.
mthomps
53
38k
Building an army of robots
kneath
302
42k
The Cult of Friendly URLs
andyhume
76
6k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
0
120
Transcript
MeCabKeras 2019/2/23 @Python in
3F-*"% Q:<+/M@3F-*8L )9 3F O8L$?.
IDP6S E<6S >16S KFREG6S /M6S C4-*"% 3F-*8L)9 <JNF '0=A#&H ! 5 72; B, ("%
!!$A<7> 7>-=N-Gram .C(2 !$,@ 7>A<A1
0 # $?/<"A<85 3B!$, %&<*'9)+:. %&<*'D46 =;C2E6 0 Ex. MeCab
'!, ",*+$J8 AOIQH=
FORBFO"( E9 RLRB20N16AOIQ H= RLAAG>U &$ CV .@W73 RL?K MS 16E -D16/5:TH= /5:T;=46 )%#+P 46<
livedoor NHN Japan58+- 42 livedoor $' ) #%&* (!*
=. $'1,79 :6;HTML"/<30 https://www.rondhuit.com/download.html#ldcc
livedoor
MeCab
MeCab HN7GSMGegi−69PKPLW`8:%/0-$ &25iGQoegI _@eg1-*,.4'",BC? !.5)(
fdkRm 5'5 V;T[nUJaGoogle Inc. ^p\Ffh]cX +.3-5#><jl = Y ,"5DAbEZ O
MeCab MeCab C++ '& # !*(
Windows %$ https://taku910.github.io/mecab/#download #"+) 32 64 , https://github.com/ikegami-yukino/mecab/releases/tag/v0.996 #"+) Mac %$ Homebrew mecab, mecab-ipadic #!+) Ubuntu %$ apt mecab, mecab-ipadic #!+)
Keras
keras.preprocessing.text.Tokenizer /-.2 /- !%"(8$&5 * #31)76 0)% +4
', fit &5tokenize !%0) %
keras.preprocessing.sequence.pad_sequences ! ( " # $'%
&
BoW: Bag of Words # %EC* G DEC?
- J;/ F<+EC,8=@1/0&%) 58 ()! '"%*$* ,8I209&%) 58 /1 TF-IDF: Term Frequency Inverse Document Frequency EHI2 ><,8 EC:67B4A .1&% )3
Word Embedding a]!.$*2C<@ fTY=!UD :9RPJG5 a]J ?Z10,000 20,000K6
Ni '3&, &.$*2 7<a]![RP7dJ`RPe.$*2 F S< Word Embeddinga]gO Google A; Xb!LWord2vec^V \B W^Ec!80)2H_!LRP IM Word2vec&#(-%1/Qh@Ec!8 )"-1 +4%0)27> Ec!8<@
RNN: Recurrent Neural Network *-H,+.=8 G "!%AB !*DF
@162 ,'/5?)/ G#$&!:(8 RNN> C;79304E LSTMLong Short Term MemoryGRU Gated Recurrent Unit<
BoW DNN
Word EmbeddingGlobalAveragePooling1D
Word EmbeddingRNNLSTM DNN
BoWDNN 0.5E #9("%$)CBoW+/ DNN4: * DBG6GlobalAveragePooling1D1 !$=2F
A LSTM7H2F,- <4: ' ; 7I ?3>8)CLSTM 4: & @:4
NLP,B8?=4-1$!&)%+"C5>@.A 7EFDQ&A-1Sequence-to-Sequence($* Attention :($*.A;3 OpenAIGoogle
Transformer '#Allen Institute 2.ELMo Google G5($*3BERTOpenAI .6GPT-204 <($* 9/