sentence Translated English sentence French sentence Translated English sentence French sentence Translated English sentence … QAのペアをたくさん⾒せて 「Q→A 変換ロボ」を育てる 訓練事例数︓104–107
37 • 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわ かる. − “If A and B have almost identical environments (...), we say they are synonyms: oculist and eye-doctor” [Harrisʼ54] − “You shall know a word by the company it keeps” [Firthʼ57] − “words with similar meanings will occur with similar neighbors if enough text material is available” [Schütze&Pedersenʼ97] 📄 Harris, DistribuEonal Structure (WORD 1954) 📄 Firth, A Synopsis of LinguisEc Theory, 1930-55 (1957) 📄 Schütze&Pedersen, A cooccurrence-based thesaurus and two applicaEons to informaEon retrieval (Inf. Process. Manage. 1997)
the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... ⾔語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyalʼ23] ……という仮説 ……のお気持ち絵
……のお気持ち絵 ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya … ↔ ↔ ↔ ↔ ↔
Tokyo, Ghana -> [ ? ] ⾔語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyalʼ23] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya … ↔ ↔ ↔ ↔ ↔
Tokyo, Ghana -> [ ? ] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya … ↔ ↔ ↔ ↔ ↔ ⾔語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyalʼ23] (OK... relation 132) Accra …
− LM は 𝑛 = 8 だと全然うまく復号化できない 📄 McCoy+, Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) 問題の難しさのクラスは 変わらないはずなのに︕ LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) コーパス(学習データ) にそこそこ含まれるのは 𝑛 = 1, 3, 13 の場合 LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) コーパス(学習データ) にそこそこ含まれるのは 𝑛 = 1, 3, 13 の場合 ⾔語モデルが そこそこ解けるのも 𝑛 = 1, 3, 13 の場合 LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
McCoy+, Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) 問題の難しさのクラスは 変わらないはずなのに︕ 「争いの解決は事実に基づいて おこなわねばならない」 ?「機能の増⼤は彼の焦点に 基づいておこなわねばならない」 LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
McCoy+, Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) 出⼒⽂の「よくある度」ないし 「⾃然さ」「ヒトっぽさ」 LLM の 復号化の 正解率 LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
• LMは回答⽂の頻度に引きずられる − 問題の難しさのクラスが全く同じだとしても… − 出⼒⽂がそれっぽい場合は(Web で⾒かけそうな場合は)解ける − 出⼒⽂がそれっぽくない場合は(Web で⾒かけなそうな場合は)解けない • これが⼈と同じかどうかは置いておいて,少なくともLMは (LM “も” …︖)「考えて解く」とはだいぶ違うことをしてそう 📄 McCoy+, Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]