Upgrade to Pro — share decks privately, control downloads, hide ads and more …

作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)

 作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)

言語処理学会第31回年次大会(NLP2025) の発表資料

Masato Mita

March 11, 2025
Tweet

More Decks by Masato Mita

Other Decks in Research

Transcript

  1. ⾔語獲得の臨界期仮説 • ⾔語を効率的に習得できる特定の時期が存在し, この時期を過ぎると その能⼒が低下するという理論 [Lenneberg’67] ◦ 幼少期に⾔語を聞く機会が制限された事例や第⼆⾔語習得における年齢の影響 など, 多くの研究が臨界期の存在を⽀持

    [Mayberry&Fischer’89, Johnson&Newport’89, Newport’90] • 理論的視点 ◦ ⽣得論: ⾔語獲得は遺伝的にプログラムされた能⼒ [Chomsky’65, Pinker’94] ◦ 経験論: 社会的‧環境的要因, 特に⾔語的インプットの量と質によっても説明可能 [Elman+’96,Seidenberg&Zevin’06] 4 ➢ 臨界期の正確な境界やメカニズムは依然として議論が続いている
  2. 本研究の概要 • ⽬的 ◦ ✅⼈間の作業記憶の発達特性を⾔語モデルの学習に組み込みことで, 効率的な第⼀⾔語 (L1) 獲得が可能か検証 • 提案⼿法&検証⽅法

    ◦ 🔸学習初期では記憶を制限し, その後指数関数的に緩和する機構の導⼊ ◦ 🔸統語評価ベンチマーク上で記憶制限なし/静的制限ありの⼿法と⽐較 • 結果&貢献 ◦ 🚀提案⼿法が最も効率的な⽂法獲得を実現 ◦ 📌NLP: データ効率の良い⾔語モデル設計のための新たな⽅針を提供 ◦ 📌認知科学: 作業記憶の発達特性が臨界期の基盤メカニズムとなる可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 6
  3. ⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14

    歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 7
  4. ⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14

    歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 8 言語獲得の臨界期 [Lenneberg’67]
 臨界期における作業記憶の発達的特性を⾔語モデルに組み込む ことで効率的な⾔語獲得が誘発されるか? RQ

  5. 作業記憶の認知モデリング • 作業記憶の発達は指数関数的に増加する形で モデル化可能: y = b − a x

    (0 < a < 1) • 指数モデルの妥当性: ◦ 成熟した後の記憶容量の上限(漸近線)を表現可能 ◦ 幼児期の急速な成⻑を適切に表現 ◦ 線形や対数モデルよりも現実の発達パターンに適合 9 言語獲得の臨界期 [Lenneberg’67]
 成人レベルの最大記憶容量
 成長速度

  6. ⾔語モデルにおける「作業記憶」の制限⽅法 • 記憶の制限⼿法として, ⾔語モデルへの「新近性バイアス」を導⼊する ALiBi(Attention with Linear Biases)[Press+’22] を活⽤ ◦

    注意スコアを計算する際, トークン間の距離に応じて負の線形ペナルティを付与 ◦ ⼈間の読解⾏動に近いサプライザルの推定が可能 [Clark+’25] • ALiBiを適⽤するうえでの課題 ◦ ALiBiの勾配 𝓂 は各注意ヘッドで固定のため静的な記憶制限を表現 ◦ ⼈間の作業記憶の発達特性(動的な記憶制限)を⼗分に反映できない 10 [Press+’22] より
  7. 提案⼿法: DynamicLimit-Exp • 学習の進⾏に応じて勾配𝓂を指数関数的に減少 • 記憶容量 𝑤 𝘵 は, モデル

    に基づき 次式で既定 11 (𝓂 𝘵 : 初期勾配, r: 減衰率, 𝘵: エポック数)
 𝓂 𝘵 = 𝓂 0 ·r𝘵 𝑤 𝘵 ≔ 1 − 𝓂 𝘵 ➢ モデルは初期段階では近距離の注意を重視し, 学習が進むにつれて ⻑距離の依存関係に注意を向けられる
  8. 実験設定 • ベースモデル ◦ GPT-2[Radford+’19]の⼩規模版(4層, 4注意ヘッド, 256次元) • データセット ◦

    AO-CHILDES [Huebner&Willits’21] ▪ 英語圏のおよそ 1 ~ 6歳までの⼦ども向け発話(CDS)が年齢順に収録された 5M単語規模のデータセット ◦ Wikipedia ▪ 50万⽂をランダム抽出 cf. [Huebner+’21] • 評価 ◦ Zorro [Huebner+’21] ▪ ⽂法項⽬ごとに容認可能な⽂と不可能な⽂からなるミニマルペアを⽤いて ⾔語モデルの統語能⼒を評価するBLiMP[Warstadt+’20]のCDS特化版 ▪ seedを変えた3試⾏の平均値を報告 12 P(The lie on the foot is flat.) > P(*The lies on the foot is flat.) 
 臨界期効果は特定の⼊⼒刺激(例: CDS) or 学習メカニズムに起因するかを切り分け
  9. ベースラインモデル • NoLimit(GPT-2に相当) ◦ 記憶制限をかけないモデル ◦ 学習初期から作業記憶が⼀定であり,思春期以降 に観察される発達が成熟した作業記憶を模倣 • StaticLimit(GPT-2

    w/ ALiBiに相当) ◦ 注意スコア計算時にALiBiを適⽤したモデル ◦ 学習初期から学習後期にかけて⼀定の記憶制限 • DynamicLimit-Linear ◦ ALiBiの勾配𝓂を学習の進⾏に伴い「線形」に減少 させたモデル ◦ 作業記憶の発達特性の粗い近似 13 線形増加と指数関数的増加を公平に⽐較する ために記憶容量の初期値と最終値を統制
  10. 臨界期効果は作業記憶の「成⻑」により誘発される 19 (a) Mark fixed one worn canal, and Roger

    fixed more (worn canals).
 (b) *Mark fixed one canal, and Roger fixed more worn.
 例: ELLIPSIS(”省略”)
 「more worn」だけでは完全な 意味を成さないため非文
 省略された部分が明確に推測で きる場合のみ許容
 長距離依存関係の維持 が必要 ➢ 学習初期段階から多くの記憶容量が必要な項目は提案手法ではうまくいかない可能性 

  11. まとめ • 作業記憶の発達特性を⾔語モデルに組み込む⼿法を提案 ◦ 学習初期では記憶を制限し, 学習の進⾏に伴い指数関数的に緩和する機構の導⼊ • 統語評価ベンチマークにおいて, 記憶制限なし/静的制限ありのモデル よりも優れた性能を確認

    → L1獲得における臨界期現象の再現 ◦ 段階的な記憶拡張により ▪ 初期に基本的なパターン抽出を優先し, 後に複雑な規則をブートストラップ的に 学習させることで規則の汎化を促進するとともに, ▪ 異⽅性が抑制されより構造化された表現学習の促進に寄与した可能性 • 主要な貢献 ◦ データ効率の良い⾔語モデル設計の新たな⽅向性の提⽰ ◦ ⼈間の作業記憶の発達特性が臨界期の効率的な⾔語獲得に関与する可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 21