Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ゼロつく2 輪読会 3.1-3.3
Search
keitaro2002
February 21, 2024
Technology
0
33
ゼロつく2 輪読会 3.1-3.3
keitaro2002
February 21, 2024
Tweet
Share
More Decks by keitaro2002
See All by keitaro2002
ゼロつく2 輪読会 3.4-3.6
keitaro2002
0
50
Other Decks in Technology
See All in Technology
AI開発の落とし穴 〜馬には乗ってみよAIには添うてみよ〜
sansantech
PRO
8
3.5k
さくらのクラウドでのシークレット管理を考える/tamachi.sre#2
fujiwara3
1
220
新規事業 toitta におけるAI 機能評価の話 / AI Feature Evaluation in toitta
pokutuna
0
260
AI Agent Standards and Protocols: a Walkthrough of MCP, A2A, and more...
glaforge
1
550
フロントエンド開発者のための「厄払い」
optim
0
170
AWS Devops Agent ~ 自動調査とSlack統合をやってみた! ~
kubomasataka
2
180
ドキュメントからはじめる未来のソフトウェア
pkshadeck
3
920
かわいい身体と声を持つ そういうものに私はなりたい
yoshimura_datam
0
420
JuliaTokaiとしてはこれが最後かもしれない(仮) for NGK2026S
antimon2
0
120
プロダクトエンジニアこそ必要なPMスキル 〜デリバリー力を最大化し、価値を届け続けるために〜
layerx
PRO
0
120
AI時代にあわせたQA組織戦略
masamiyajiri
5
2.2k
Behind the Stream - How AbemaTV Engineers Build Video Apps at Scale
ygoto3
0
130
Featured
See All Featured
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Speed Design
sergeychernyshev
33
1.5k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
910
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
150
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
150
Leo the Paperboy
mayatellez
4
1.3k
Building the Perfect Custom Keyboard
takai
2
670
My Coaching Mixtape
mlcsv
0
37
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
290
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
150
Producing Creativity
orderedlist
PRO
348
40k
Transcript
ゼロつく2 輪読会 Part3 3.1~3.3 2024年 2⽉22⽇
‣ これ以降の図は以下より引⽤ 斎藤 康毅 「ゼロから作るDeep Learning ❷―⾃然⾔語処理編」 はじめに
‣ 前回の復習 ‣ カウントベースから推論ベースへ ‣ word2vec ‣ 次回に向けて ⽬次
前回の復習
‣ コサイン類似度→(⾃⼰)相互情報量 PMI ‣ 値が⼤きいほど共起(⼀緒に出現)しやすい ‣ SVD(特異値分解)による次元削減 前回の復習
カウントベースから推論ベー スへ
‣ ⼤規模なコーパスを扱いきれない. ‣ SVDまで⾏うと𝑂(𝑛!)の計算コストがかかる. ‣ 学習時に全てのデータを⽤いて1回の処理で分散表現を 獲得 カウントベースの問題点
‣ 推論ベース ‣ ミニバッチで学習 推論ベースの登場
‣ 周囲の単語から「?」に⼊る単語を推測する. ‣ 単語の出現確率を学習 推論ベースの概要
‣ one-hotベクトル 単語の処理
word2vec
‣ word2vecで提案されているモデルの1つ ‣ コンテキストからターゲットを推測するNN (学習の詳細は次回) CBOW(countinuous bag-of-word)
モデルの具体例 コンテキストとしてN個の単語 →⼊⼒層はN個 CrossEntropyLoss
‣ 3つの選択肢 1. ⼊⼒側の重み(𝑊"# )だけ 2. 出⼒側の重み(𝑊$%& )だけ 3. 2つの重みを両⽅
‣ 1.⼊⼒側の重みだけが最もポピュラー 単語の分散表現
次回に向けて
‣ 使⽤するコーパス ‣ 「You say goodbye and I say hello.」
学習データの準備
コンテキストとターゲット
ベクトルに変換
one-hotベクトル