条件付き確率の条件部を𝑛𝑛 − 1個前までの単語で打ち切る 𝑃𝑃(𝑦𝑦𝑡𝑡 |𝑦𝑦0 , … , 𝑦𝑦𝑡𝑡−1 ) ≈ 𝑃𝑃(𝑦𝑦𝑡𝑡 |𝑦𝑦𝑡𝑡−𝑛𝑛+1 , … , 𝑦𝑦𝑡𝑡−1 ) = #(𝑦𝑦𝑡𝑡−𝑛𝑛+1 , … , 𝑦𝑦𝑡𝑡−1 , 𝑦𝑦𝑡𝑡 ) #(𝑦𝑦𝑡𝑡−𝑛𝑛+1 , … , 𝑦𝑦𝑡𝑡−1 ) データスパースネス問題をある程度回避できる テキストの続きを予測する問題を3グラム言語モデルで解く場合 𝑃𝑃 𝑦𝑦 英国, の, 首都, は ≈ 𝑃𝑃 𝑦𝑦 首都, は = #(首都, は, 𝑦𝑦) #(首都, は) ❌ 長距離依存(離れた位置にある単語の関係性)を扱いにくい 𝑦𝑦𝑡𝑡 よりも前に ある全単語 𝑦𝑦𝑡𝑡 から𝑛𝑛 − 1個前 までの単語 どこの首都について聞かれて いるのか考慮できない! 𝑃𝑃 東京 | 首都, は = 0.74 𝑃𝑃 パリ |首都, は = 0.03 𝑃𝑃 … … |首都, は = ⋯ 𝑃𝑃 ロンドン |首都, は = 0.05 𝑦𝑦∗ = 東京 RNN型ニューラル言語モデル (Mikolov+ 2010) 11 BOS softmax softmax softmax softmax softmax 英国 の 首都 は 𝑃𝑃 𝑦𝑦1 |BOS 𝑃𝑃 𝑦𝑦2 |英国 T Mikolov, M Karafiát, L Burget, J Černocký, S Khudanpur. 2010. Recurrent Neural Network Based Language Model. In INTERSPEECH, pp. 1045-1048. 𝑃𝑃 𝑦𝑦3 |英国の 𝑃𝑃 𝑦𝑦4 |英国の首都 𝑃𝑃 𝑦𝑦5 |英国の首都は ✅ 埋め込み表現(単語ベクトル)により類義語・関連語を考慮できる 😟😟 原理上は長距離依存を扱えるが、固定長のベクトルだけでは情報を覚えきれない 😟😟 ネットワークが単語位置方向に深くなるため、学習が難しくなる(勾配爆発・消失) 単語 ベクトル 隠れ状態 ベクトル 確率分布 ベクトル 勾配 消失 ニューラル機械翻訳(系列変換モデル)における進展 12 The capital of UK is + London BOS 英国 の 首都 は 英国 の 首都 は ロンドン 2014年頃から深層学習に基づく機械翻訳の研究が盛んに (Sutskever+ 2014) 機械翻訳モデルと言語モデルのアーキテクチャは似ている 大規模言語モデルの基盤となるアイディア(例:注意機構)が次々と生み出される ✅ 注意機構により、固定長のベクトルだけを用いるのではなく、入力単語の情報を柔軟に 参照しながら翻訳単語の予測を行えるようになり、長い入力文の翻訳精度が向上した 😟😟 入力文中の単語間、出力文中の単語間の長距離依存を考慮しにくい I Sutskever, O Vinyals, Q V Le. 2014. Sequence to Sequence Learning with Neural Networks. In NIPS, pp. 3104–3112. D Bahdanau, K Cho, Y Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In ICLR. 注意機構 (Bahdanau+ 2015) どの単語に着目するべきか 自動的に学習・決定される ͖݅֬ͷ݅෦Λ Oݸલ·Ͱͷ୯ޠͰଧͪΔ ຒΊࠐΈදݱ ୯ޠϕΫτϧXPSEWFD ʹΑͬͯྨٛޠɾؔ࿈ޠΛߟྀ͢Δ ೖྗ୯ޠͷใΛॊೈʹࢀরͯ͠ ڑґଘΛղফ͢Δ Ԭ࡚, େنݴޠϞσϧͷڻҟͱڴҖ, AIPγϯϙδϜՌใࠂձ, 2023 https://speakerdeck.com/chokkan/20230327_riken_llm $IBU (15ͷݪཧ