作業記憶の発達的特性が言語獲得の臨界期を形成する（NLP2025）

作業記憶の発達的特性が⾔語獲得の臨界期を形成する ◯三⽥雅⼈1,2 吉⽥遼1 深津聡世1 ⼤関洋平1 1東京⼤学, 2サイバーエージェント 1  B4-6 

2 前置き • 予稿に誤植があったためerrataを公開しています • 本発表ではその後の探究に基づく最新結果[Mita+’25]についても報告します cf. [Mita+’25]: Developmentally-plausible Working
Memory Shapes a Critical Period for Language Acquisition 

LLMと⼈間の「⾔語獲得効率」における乖離 • LLMは多くの評価指標において⼈間と同等の性能を達するために⼈間と⽐較して 3~4 桁多いデータ量を必要 [Warstadt+’23] 3 [Warstadt+’23] より
➢ ⼈間の⾔語処理や獲得過程からの「教訓」が存在しうることを⽰唆

⾔語獲得の臨界期仮説 • ⾔語を効率的に習得できる特定の時期が存在し, この時期を過ぎるとその能⼒が低下するという理論 [Lenneberg’67] ◦ 幼少期に⾔語を聞く機会が制限された事例や第⼆⾔語習得における年齢の影響など, 多くの研究が臨界期の存在を⽀持
[Mayberry&Fischer’89, Johnson&Newport’89, Newport’90] • 理論的視点 ◦ ⽣得論: ⾔語獲得は遺伝的にプログラムされた能⼒ [Chomsky’65, Pinker’94] ◦ 経験論: 社会的‧環境的要因, 特に⾔語的インプットの量と質によっても説明可能 [Elman+’96,Seidenberg&Zevin’06] 4 ➢ 臨界期の正確な境界やメカニズムは依然として議論が続いている

Less-is-More仮説 5 • 論拠 ◦ 幼児は処理可能な情報が限られるため，⾔語の基本的なパターンや構造（例: ⽂法規則）を効率的に抽出できる ◦ ⼀⽅，⼤⼈は認知能⼒が⾼いがゆえに複雑な情報に気を取られ規則の学習
が妨げられる幼児の認知的な制約（例: 短期記憶の容量や注意の範囲）がむしろ⾔語学習に有利に働く[Newport’90] Less-is-More仮説 

本研究の概要 • ⽬的 ◦ ✅⼈間の作業記憶の発達特性を⾔語モデルの学習に組み込みことで, 効率的な第⼀⾔語 (L1) 獲得が可能か検証 • 提案⼿法&検証⽅法
◦ 🔸学習初期では記憶を制限し, その後指数関数的に緩和する機構の導⼊ ◦ 🔸統語評価ベンチマーク上で記憶制限なし/静的制限ありの⼿法と⽐較 • 結果&貢献 ◦ 🚀提案⼿法が最も効率的な⽂法獲得を実現 ◦ 📌NLP: データ効率の良い⾔語モデル設計のための新たな⽅針を提供 ◦ 📌認知科学: 作業記憶の発達特性が臨界期の基盤メカニズムとなる可能性を⽰唆（⽣得主義的⽴場を⽀持する間接証拠を提供） 6

⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期（2~7 歳）： ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期（8~14
歳）： ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後（15 歳以上）： ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 7

⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期（2~7 歳）： ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期（8~14
歳）： ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後（15 歳以上）： ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 8 言語獲得の臨界期 [Lenneberg’67]  臨界期における作業記憶の発達的特性を⾔語モデルに組み込むことで効率的な⾔語獲得が誘発されるか？ RQ 

作業記憶の認知モデリング • 作業記憶の発達は指数関数的に増加する形でモデル化可能: y = b − a x
(0 < a < 1) • 指数モデルの妥当性: ◦ 成熟した後の記憶容量の上限（漸近線）を表現可能 ◦ 幼児期の急速な成⻑を適切に表現 ◦ 線形や対数モデルよりも現実の発達パターンに適合 9 言語獲得の臨界期 [Lenneberg’67]  成人レベルの最大記憶容量  成長速度 

⾔語モデルにおける「作業記憶」の制限⽅法 • 記憶の制限⼿法として, ⾔語モデルへの「新近性バイアス」を導⼊する ALiBi（Attention with Linear Biases）[Press+’22] を活⽤ ◦
注意スコアを計算する際, トークン間の距離に応じて負の線形ペナルティを付与 ◦ ⼈間の読解⾏動に近いサプライザルの推定が可能 [Clark+’25] • ALiBiを適⽤するうえでの課題 ◦ ALiBiの勾配 𝓂 は各注意ヘッドで固定のため静的な記憶制限を表現 ◦ ⼈間の作業記憶の発達特性（動的な記憶制限）を⼗分に反映できない 10 [Press+’22] より

提案⼿法: DynamicLimit-Exp • 学習の進⾏に応じて勾配𝓂を指数関数的に減少 • 記憶容量 𝑤 𝘵 は, モデル
に基づき次式で既定 11 （𝓂 𝘵 : 初期勾配, r: 減衰率, 𝘵: エポック数）  𝓂 𝘵 = 𝓂 0 ·r𝘵 𝑤 𝘵 ≔ 1 − 𝓂 𝘵 ➢ モデルは初期段階では近距離の注意を重視し, 学習が進むにつれて⻑距離の依存関係に注意を向けられる

実験設定 • ベースモデル ◦ GPT-2[Radford+’19]の⼩規模版（4層, 4注意ヘッド, 256次元） • データセット ◦
AO-CHILDES [Huebner&Willits’21] ▪ 英語圏のおよそ 1 ~ 6歳までの⼦ども向け発話（CDS）が年齢順に収録された 5M単語規模のデータセット ◦ Wikipedia ▪ 50万⽂をランダム抽出 cf. [Huebner+’21] • 評価 ◦ Zorro [Huebner+’21] ▪ ⽂法項⽬ごとに容認可能な⽂と不可能な⽂からなるミニマルペアを⽤いて⾔語モデルの統語能⼒を評価するBLiMP[Warstadt+’20]のCDS特化版 ▪ seedを変えた3試⾏の平均値を報告 12 P(The lie on the foot is ﬂat.) > P(*The lies on the foot is ﬂat.)   臨界期効果は特定の⼊⼒刺激（例: CDS） or 学習メカニズムに起因するかを切り分け

ベースラインモデル • NoLimit（GPT-2に相当） ◦ 記憶制限をかけないモデル ◦ 学習初期から作業記憶が⼀定であり，思春期以降に観察される発達が成熟した作業記憶を模倣 • StaticLimit（GPT-2
w/ ALiBiに相当） ◦ 注意スコア計算時にALiBiを適⽤したモデル ◦ 学習初期から学習後期にかけて⼀定の記憶制限 • DynamicLimit-Linear ◦ ALiBiの勾配𝓂を学習の進⾏に伴い「線形」に減少させたモデル ◦ 作業記憶の発達特性の粗い近似 13 線形増加と指数関数的増加を公平に⽐較するために記憶容量の初期値と最終値を統制

⾔語獲得における臨界期現象は再現されるか？ ➢ L1獲得における臨界期現象の再現を確認 ◦ 作業記憶の発達特性が重要な役割を果たしている可能性を⽰唆 14 AO-CHILDES    +5.7 

臨界期効果は特定の⼊⼒刺激（データ）に依存するか？ 15 ➢ 臨界期効果は⼊⼒刺激ではなく（⼦供特有の）学習メカニズムに起因 AO-CHILDES  Wikipedia  +5.7  +4.4 

臨界期効果は “Less-is-More”に起因するか？ 16 性能向上は作業記憶の「変化（ ≠ 成長）」による副作用（例: 情報量の増加）では？ 

臨界期効果は “Less-is-More”に起因するか？ 17 反転した認知制約モデルを用いて検証  性能向上は作業記憶の「変化（ ≠ 成長）」による副作用（例: 情報量の増加）では？ 

臨界期効果は作業記憶の「成⻑」により誘発される 18

臨界期効果は作業記憶の「成⻑」により誘発される 19 (a) Mark fixed one worn canal, and Roger
fixed more (worn canals).  (b) *Mark fixed one canal, and Roger fixed more worn.  例: ELLIPSIS（”省略”）  「more worn」だけでは完全な意味を成さないため非文  省略された部分が明確に推測できる場合のみ許容  長距離依存関係の維持が必要 ➢ 学習初期段階から多くの記憶容量が必要な項目は提案手法ではうまくいかない可能性  

段階的な記憶拡張は表現学習の質を向上させる • 埋め込みの多様性を維持し過度な圧縮を防ぐ • クラスター間の分離が保たれ学習が停滞しにくい • 異⽅性が抑制されより構造化された表現学習が可能 ◦ 埋め込み空間の等⽅性が統語的汎化を促進 [Diehl
Martinez+'24] 20 例: FILLER. GAP

まとめ • 作業記憶の発達特性を⾔語モデルに組み込む⼿法を提案 ◦ 学習初期では記憶を制限し, 学習の進⾏に伴い指数関数的に緩和する機構の導⼊ • 統語評価ベンチマークにおいて, 記憶制限なし/静的制限ありのモデルよりも優れた性能を確認
→ L1獲得における臨界期現象の再現 ◦ 段階的な記憶拡張により ▪ 初期に基本的なパターン抽出を優先し, 後に複雑な規則をブートストラップ的に学習させることで規則の汎化を促進するとともに, ▪ 異⽅性が抑制されより構造化された表現学習の促進に寄与した可能性 • 主要な貢献 ◦ データ効率の良い⾔語モデル設計の新たな⽅向性の提⽰ ◦ ⼈間の作業記憶の発達特性が臨界期の効率的な⾔語獲得に関与する可能性を⽰唆（⽣得主義的⽴場を⽀持する間接証拠を提供） 21

22  付録

ベースモデル実験設定 23

Zorroの各⽂法項⽬リスト 24

埋め込み空間の変化（例: CASE） 25

訓練データの⽂⻑を変更した場合のZorro性能 26

作業記憶の発達的特性が言語獲得の臨界期を形成する（NLP2025）

作業記憶の発達的特性が言語獲得の臨界期を形成する（NLP2025）

Masato Mita

More Decks by Masato Mita

Other Decks in Research

Featured

Transcript

作業記憶の発達的特性が⾔語獲得の臨界期を形成する ◯三⽥雅⼈1,2 吉⽥遼1 深津聡世1 ⼤関洋平1 1東京⼤学, 2サイバーエージェント 1  B4-6

2 前置き • 予稿に誤植があったためerrataを公開しています • 本発表ではその後の探究に基づく最新結果[Mita+’25]についても報告します cf. [Mita+’25]: Developmentally-plausible Working

LLMと⼈間の「⾔語獲得効率」における乖離 • LLMは多くの評価指標において⼈間と同等の性能を達するために⼈間と⽐較して 3~4 桁多いデータ量を必要 [Warstadt+’23] 3 [Warstadt+’23] より

Less-is-More仮説 5 • 論拠 ◦ 幼児は処理可能な情報が限られるため，⾔語の基本的なパターンや構造（例: ⽂法規則）を効率的に抽出できる ◦ ⼀⽅，⼤⼈は認知能⼒が⾼いがゆえに複雑な情報に気を取られ規則の学習

本研究の概要 • ⽬的 ◦ ✅⼈間の作業記憶の発達特性を⾔語モデルの学習に組み込みことで, 効率的な第⼀⾔語 (L1) 獲得が可能か検証 • 提案⼿法&検証⽅法

⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期（2~7 歳）： ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期（8~14

⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期（2~7 歳）： ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期（8~14

作業記憶の認知モデリング • 作業記憶の発達は指数関数的に増加する形でモデル化可能: y = b − a x

⾔語モデルにおける「作業記憶」の制限⽅法 • 記憶の制限⼿法として, ⾔語モデルへの「新近性バイアス」を導⼊する ALiBi（Attention with Linear Biases）[Press+’22] を活⽤ ◦

提案⼿法: DynamicLimit-Exp • 学習の進⾏に応じて勾配𝓂を指数関数的に減少 • 記憶容量 𝑤 𝘵 は, モデル

実験設定 • ベースモデル ◦ GPT-2[Radford+’19]の⼩規模版（4層, 4注意ヘッド, 256次元） • データセット ◦

ベースラインモデル • NoLimit（GPT-2に相当） ◦ 記憶制限をかけないモデル ◦ 学習初期から作業記憶が⼀定であり，思春期以降に観察される発達が成熟した作業記憶を模倣 • StaticLimit（GPT-2

⾔語獲得における臨界期現象は再現されるか？ ➢ L1獲得における臨界期現象の再現を確認 ◦ 作業記憶の発達特性が重要な役割を果たしている可能性を⽰唆 14 AO-CHILDES    +5.7

臨界期効果は特定の⼊⼒刺激（データ）に依存するか？ 15 ➢ 臨界期効果は⼊⼒刺激ではなく（⼦供特有の）学習メカニズムに起因 AO-CHILDES  Wikipedia  +5.7  +4.4

臨界期効果は “Less-is-More”に起因するか？ 16 性能向上は作業記憶の「変化（ ≠ 成長）」による副作用（例: 情報量の増加）では？

臨界期効果は “Less-is-More”に起因するか？ 17 反転した認知制約モデルを用いて検証  性能向上は作業記憶の「変化（ ≠ 成長）」による副作用（例: 情報量の増加）では？

臨界期効果は作業記憶の「成⻑」により誘発される 18

臨界期効果は作業記憶の「成⻑」により誘発される 19 (a) Mark ﬁxed one worn canal, and Roger

22  付録

ベースモデル実験設定 23

Zorroの各⽂法項⽬リスト 24

埋め込み空間の変化（例: CASE） 25

訓練データの⽂⻑を変更した場合のZorro性能 26