𝑠𝑜𝑠 > 文末記号 < 𝑒𝑜𝑠 > 文脈情報 DNN This DNN is This This is a DNN a pen DNN pen ※生成文の多様性を重視するタスク(雑談対話)だと、データとモデルが 大規模ならTeacher forcingで十分、という話もある(Meena [Adiwardana+,2020]) 2021/4/8 2021ⒸSEITARO SHINAGAWA
man stands on the floor . A man is standing by a dog . 報酬関数 𝑅 𝑌 , 𝑌 参照文𝑌(正解文) A man and dog are working on the floor 生成文 𝑌 0.1 →既存の自動評価尺度やスコアの予測モデルをタスクに合わせて使える 例:BLEU, CIDEr, BERTScore,… 0.8 0.6 REINFORCEの手順②:報酬関数(or報酬モデル)による評価 生成系列を報酬関数(評価関数)に通して得たスコアを報酬とする 利点:報酬関数、および報酬関数への入力は微分不可能でもよい 方策 𝜋 𝑦𝑡 |𝑠𝑡 スコア (報酬) 2021/4/8 2021ⒸSEITARO SHINAGAWA
が得られた。 これを使って評価値の高い文の尤度を上げるには・・・? 𝑌𝑖 𝑅 𝑌𝑖 , 𝑌𝑖 There is a girl by the table . A man stands on the floor . A man is standing by a dog . 0.1 0.8 0.6 2021/4/8 2021ⒸSEITARO SHINAGAWA
A man is standing by a dog . < 𝑒𝑜𝑠 > < 𝑠𝑜𝑠 > man 𝑦2 𝑦3 A A dog man is man 𝑦𝑇−1 < 𝑒𝑜𝑠 > 教師 予測 トークン 0.8 生成文 𝑌𝑖 入力 𝑙𝑜𝑠𝑠 = − 1 𝑇 𝑡=1 𝑇 0.8 ⋅ 𝑦𝑡 log 𝜋𝜃 𝑦𝑡 |𝑠𝑡 報酬𝑅 𝑌𝑖 , 𝑌𝑖 REINFORCEの手順③:報酬スコアによる重みづけによる再学習 1文の各トークンの重みは 同じ重み(文単位の報酬) 2021/4/8 2021ⒸSEITARO SHINAGAWA loss backprop