2017) 課題: 従来の系列変換モデル (RNN, LSTM, GRU, CNNベース) は、逐次計算による並列 化の制約や、長い系列での依存関係学習の困難さがあった。 提案: Recurrence (再帰) や Convolution (畳み込み) を完全に排除し、Attentionメカニ ズムのみに基づいた新しいモデルアーキテクチャ "Transformer" を提案。 貢献: 高い並列化可能性による訓練時間の短縮。 機械翻訳タスクで当時の最高性能 (State-of-the-Art) を達成。 他のタスクへの汎用性も示した。 Attention Is All You Need 論文解説 2