Transformer論文紹介

Attention Is All You Need 論文紹介：Transformerの論文 Masahiro Kazama 2025/05/08 Attention
Is All You Need 論文解説 1

概要論文: "Attention Is All You Need" (Vaswani et al.,
2017) 課題: 従来の系列変換モデル (RNN, LSTM, GRU, CNNベース) は、逐次計算による並列化の制約や、長い系列での依存関係学習の困難さがあった。提案: Recurrence (再帰) や Convolution (畳み込み) を完全に排除し、Attentionメカニズムのみに基づいた新しいモデルアーキテクチャ "Transformer" を提案。貢献: 高い並列化可能性による訓練時間の短縮。機械翻訳タスクで当時の最高性能 (State-of-the-Art) を達成。他のタスクへの汎用性も示した。 Attention Is All You Need 論文解説 2

従来の課題：逐次計算と長期依存 RNN/LSTM/GRU: 隠れ状態がに依存するため、系列の各ステップを順に計算する必要がある (逐次的)。並列計算が困難で、長い系列では計算時間がかかる。勾配消失/爆発問題により、長期的な依存関係の学習が難しい場合がある。 CNNベース
(ByteNet, ConvS2S): 並列計算は可能だが、遠い位置間の依存関係を捉えるには多くの層が必要 (層数に比例 or 対数的に増加)。 Attention Is All You Need 論文解説 3

提案手法：Transformer 基本構造: Encoder-Decoder モデル特徴: RNNやCNNを使用しない。 Self-Attention を用いて入力系列内、出力系列内の依存関係を学習。 Encoder-Decoder間の関連性は
Encoder-Decoder Attention で学習。位置情報を与えるために Positional Encoding を導入。 Figure 1: Transformerのモデルアーキテクチャ Attention Is All You Need 論文解説 4

Transformerの構成要素 (1/3): Multi- Head Attention Attentionは、Query (Q) と Key-Value (K-V)
ペアから出力を計算する機構。 Scaled Dot-Product Attention: : Keyの次元数。次元数でスケールすることで勾配消失を防ぐ。 Multi-Head Attention: Attention層を個並列に実行 (異なる重みで線形射影)。異なる表現部分空間からの情報を同時に捉えることが可能。 Attention Is All You Need 論文解説 5

Transformerの構成要素 (2/3): Attentionの種類 Transformerでは3種類のMulti-Head Attentionを使用: 1. Encoder Self-Attention: Encoder内で、各位置が他の全ての位置を参照 (Q,
K, Vが同じ Encoder層の出力)。 2. Decoder Self-Attention (Masked): Decoder内で、各位置が自身を含むそれ以前の位置のみを参照 (未来の情報を参照しないようにMasking)。 3. Encoder-Decoder Attention: DecoderがEncoderの最終出力を参照 (QはDecoder層、K, VはEncoder出力)。 Attention Is All You Need 論文解説 6

Transformerの構成要素 (3/3): その他 Position-wise Feed-Forward Networks (FFN): Attention層の後、各位置に対して独立に適用される全結合FFN。活性化関数はReLU。 Positional
Encoding: 系列内のトークンの相対的/絶対的な位置情報を与える。 sin関数とcos関数を用いた固定的な値を、入力Embeddingに加算。 Residual Connection & Layer Normalization: 各サブレイヤー (Attention, FFN) の後に追加。勾配伝播を助け、学習を安定化。 Attention Is All You Need 論文解説 7

なぜ Self-Attention か？ Layer Type Complexity per Layer Sequential Operations
Maximum Path Length Self-Attention Recurrent (RNN) Convolutional (k=kernel size) or Self-Attention (restricted r) 計算量: 系列長が次元数より小さい場合、RNNより高速。並列化: の逐次計算で済むため、並列化が容易。長期依存: 系列内の任意の位置間のパス長がであり、長期依存関係の学習が容 Attention Is All You Need 論文解説 8

実験結果：機械翻訳 WMT 2014 英独翻訳: BLEUスコア 28.4 を達成。既存の最高性能モデル (アンサンブル含む) を
2.0 BLEU以上改善。 WMT 2014 英仏翻訳: BLEUスコア 41.8 を達成 (Bigモデル)。単一モデルとして当時の最高性能 (SOTA) を達成。訓練時間: ベースモデル: 8 P100 GPUs で 12時間 (10万ステップ)。 Bigモデル: 8 P100 GPUs で 3.5日 (30万ステップ)。従来のSOTAモデルと比較して大幅に短い訓練時間。 Attention Is All You Need 論文解説 9

実験結果：モデルのバリエーション Attention Head数 (h): 1 head (h=1) では性能低下。多すぎる場合 (h=16, 32)
も若干低下。h=8が良好。 Attention Key次元 (dk): 次元数を減らすと性能低下。単純なDot-Product以外の類似度関数が有効な可能性を示唆。モデルサイズ: モデルを大きくする (d_model, d_ff) と性能向上。 Positional Encoding: 学習可能なPositional Embeddingでも、sin/cos関数版とほぼ同等の性能。 Regularization: Dropout, Label Smoothing が過学習抑制に有効。 Attention Is All You Need 論文解説 10

実験結果：英語構文解析 Transformerを英語構文解析タスク (WSJ) に適用。課題: 出力は構造的な制約が強く、入力よりかなり長い。RNNベースのモデルは苦戦していた。結果: タスク特化のチューニングなしでも、当時の多くのモデルより優れた性能 (F1ス
コア)。特に、少量の訓練データ (WSJ only) でも BerkeleyParser を上回った。 Transformerが他の系列変換タスクにも汎用的に適用可能であることを示した。 Attention Is All You Need 論文解説 11

Attentionの可視化 Attentionの重みを可視化することで、モデルがどのように単語間の関係性を捉えているかを解釈する手がかりが得られる。例: 特定のHeadが代名詞 ("it") の照応解決を行っている様子。特定のHeadが動詞と目的語など、統語
的・意味的な関係を捉えている様子。 Figure 3-5: Attentionの可視化例 (論文より) Attention Is All You Need 論文解説 12

結論 Transformer: Attentionメカニズムのみに基づく初の系列変換モデル。性能: 機械翻訳タスクでSOTAを達成し、他のタスクにも有効。効率: 高い並列化により、従来のRNN/CNNベースのモデルより大幅に高速な訓練が可能。影響: 自然言語処理分野に大きな影響を与え、BERT、GPTなど多くの後継モデルの基
礎となった。今後の展望: テキスト以外のモダリティ (画像、音声、動画) への応用、効率的な Attentionメカニズムの研究。 Attention Is All You Need 論文解説 13

参考文献 Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion
Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017). (https://arxiv.org/abs/1706.03762) Attention Is All You Need 論文解説 14

Transformer論文紹介

Transformer論文紹介

Masa Kazama

More Decks by Masa Kazama

Featured

Transcript

Attention Is All You Need 論文紹介：Transformerの論文 Masahiro Kazama 2025/05/08 Attention

概要論文: "Attention Is All You Need" (Vaswani et al.,

提案手法：Transformer 基本構造: Encoder-Decoder モデル特徴: RNNやCNNを使用しない。 Self-Attention を用いて入力系列内、出力系列内の依存関係を学習。 Encoder-Decoder間の関連性は

Transformerの構成要素 (1/3): Multi- Head Attention Attentionは、Query (Q) と Key-Value (K-V)

Transformerの構成要素 (2/3): Attentionの種類 Transformerでは3種類のMulti-Head Attentionを使用: 1. Encoder Self-Attention: Encoder内で、各位置が他の全ての位置を参照 (Q,

Transformerの構成要素 (3/3): その他 Position-wise Feed-Forward Networks (FFN): Attention層の後、各位置に対して独立に適用される全結合FFN。活性化関数はReLU。 Positional

なぜ Self-Attention か？ Layer Type Complexity per Layer Sequential Operations

実験結果：機械翻訳 WMT 2014 英独翻訳: BLEUスコア 28.4 を達成。既存の最高性能モデル (アンサンブル含む) を

実験結果：モデルのバリエーション Attention Head数 (h): 1 head (h=1) では性能低下。多すぎる場合 (h=16, 32)

参考文献 Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion