Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 微妙な埋め込み表現 各埋め込みどうしの コサイン類似度が⼤きい トークンどうしの意味関係を捉えにくい 特定条件下で微妙な埋め込み表現が 学習されてしまう 埋め込み層を最終層としても活⽤する場合 (share-input-output-embed設定) Transformer Embedding Embedding <s> John loves John loves 同じ埋め込み層 を利⽤ Aysheaia