$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
金研究室 勉強会 『Attention is all you need』
Search
winnie279
August 12, 2021
Science
0
140
金研究室 勉強会 『Attention is all you need』
Attention is all you need, Ashish et al., 2017, arXiv:1706.03762
winnie279
August 12, 2021
Tweet
Share
More Decks by winnie279
See All by winnie279
NowWay:訪⽇外国⼈旅⾏者向けの災害⽀援サービス
yjn279
0
5
「みえるーむ」(都知事杯Open Data Hackathon 2024 Final Stage)
yjn279
0
66
「みえるーむ」(都知事杯オープンデータ・ハッカソン 2024)
yjn279
0
70
5分で学ぶOpenAI APIハンズオン
yjn279
0
210
『確率思考の戦略論』
yjn279
0
140
Amazonまでのレコメンド入門
yjn279
1
180
もう一度理解するTransformer(後編)
yjn279
0
84
金研究室 勉強会 『もう一度理解する Transformer(前編)』
yjn279
0
110
金研究室 勉強会 『U-Netとそのバリエーションについて』
yjn279
0
800
Other Decks in Science
See All in Science
academist Prize 4期生 研究トーク延長戦!「美は世界を救う」っていうけど、どうやって?
jimpe_hitsuwari
0
450
データマイニング - ウェブとグラフ
trycycle
PRO
0
210
DMMにおけるABテスト検証設計の工夫
xc6da
1
1.4k
データベース01: データベースを使わない世界
trycycle
PRO
1
920
PPIのみを用いたAIによる薬剤–遺伝子–疾患 相互作用の同定
tagtag
0
120
[Paper Introduction] From Bytes to Ideas:Language Modeling with Autoregressive U-Nets
haruumiomoto
0
170
Lean4による汎化誤差評価の形式化
milano0017
1
380
なぜ21は素因数分解されないのか? - Shorのアルゴリズムの現在と壁
daimurat
0
210
Text-to-SQLの既存の評価指標を問い直す
gotalab555
1
140
Cross-Media Technologies, Information Science and Human-Information Interaction
signer
PRO
3
31k
データベース10: 拡張実体関連モデル
trycycle
PRO
0
1k
データベース12: 正規化(2/2) - データ従属性に基づく正規化
trycycle
PRO
0
1k
Featured
See All Featured
Embracing the Ebb and Flow
colly
88
4.9k
Writing Fast Ruby
sferik
630
62k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
The World Runs on Bad Software
bkeepers
PRO
72
12k
BBQ
matthewcrist
89
9.9k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
RailsConf 2023
tenderlove
30
1.3k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Agile that works and the tools we love
rasmusluckow
331
21k
Documentation Writing (for coders)
carmenintech
76
5.2k
Transcript
Attention Is All You Need Ashish et al., 2017, arXiv:1706.03762
金研 機械学習勉強会 2021/08/12 中村勇士
Transformerとは? • RNNの問題点 ◦ 長い入力が苦手 ◦ 勾配消失問題が起こりやすい ◦ 並列化が困難 →
GPUによる学習の効率化・大量のデータによる学習が困難 • Transformerによる解決 ◦ 再帰や畳み込みを使用しない ◦ 大規模なモデル・データを使用可能 ◦ 精度の大幅な向上
EQTransformerとの関係 • Transformerをそのまま使用していない ◦ attentionをレイヤーと使用 • 疑問 ◦ Transformerの強み: 再帰や畳み込みをしないこと
◦ LSTM・Convを使って良いのか?
モデル • エンコーダ・デコーダ • Attention • フィード・フォワード・ネットワーク(FFW) • 埋め込み •
ポジショナル・エンコーディング
モデル:エンコーダ・デコーダ
• エンコーダ(左) ◦ input ◦ N = 6 • デコーダ(右)
◦ output ◦ N = 6 モデル:エンコーダ・デコーダ input からの 出力
モデル:埋め込み / ポジショナル・エンコーディング • 埋め込み:単語のベクトル化 ◦ • ポジショナル・エンコーディング ◦ 構造のベクトル化
◦ 再帰や畳み込みの必要がなくなる ◦ モデルの学習が容易になる pos: 単語の順番, i: 次元, d model : 全体の次元数
モデル:Attention • 単語間の相関を表す ◦ どの単語がどの単語に 着目してるか • Q:query • K:key
• V:value • d k :dimention
Transformerの活用 • 自然言語処理(NLP) ◦ BERT ◦ GPT-3 ◦ DALL・E(テキストから画像生成) •
その他 ◦ 地震学:EQTransformer(地震動検出・フェーズピック) ◦ 生物学:AlphaFold2(タンパク質の構造予測) ◦ 音楽:Music Transformer(作曲)
おまけ • Transformer解説:GPT-3、BERT、T5の背後にあるモデルを理解する ◦ AINOW ◦ https://ainow.ai/2021/06/25/256107 • The Illustrated
Transformer ◦ Jay Alammar ◦ http://jalammar.github.io/illustrated-transformer • Embedding Projector ◦ http://projector.tensorflow.org/
モデル:フィード・フォワード・ネットワーク(FFW) • FFW ◦ 2つの線形変換 ◦ ReLU • 学習 ◦
英独:450万の文, 37,000のトークン ◦ 英仏: