Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
Search
Masato Mita
March 11, 2025
Research
840
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
言語処理学会第31回年次大会(NLP2025) の発表資料
Masato Mita
March 11, 2025
More Decks by Masato Mita
See All by Masato Mita
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
1.2k
国際会議ACL2024参加報告
chemical_tree
1
740
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
2
520
広告文生成タスクの規定とベンチマーク構築(NLP2023)
chemical_tree
0
610
論述リビジョンのためのメタ評価基盤
chemical_tree
0
410
ライティング支援のための文法誤り訂正
chemical_tree
2
1.9k
Other Decks in Research
See All in Research
NLP colloquium: AI Safety Survey
kanekomasahiro
0
730
CVPR2026論文紹介_VLMにとって良いvision encoderとは何か?Rethinking Model Selection in VLM Through the Lens of Gromov-Wasserstein Distance
kobayashi31
1
110
重要だけど測れていないもの:高齢者ケアの見えない課題
theoriatec2024
0
350
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
280
R&Dチームを起ち上げる
shibuiwilliam
1
270
第12回人と環境にやさしい交通をめざす全国大会/熊本都市圏「車1割削減、渋滞半減、公共交通2倍」をめざして
trafficbrain
0
110
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
7
4.7k
COFFEE-Japan PROJECT Impact Report(海ノ向こうコーヒー)
ontheslope
0
1.9k
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
200
LLM Compute Infrastructure Overview
karakurist
2
1.4k
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
630
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
560
Featured
See All Featured
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
210
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
25k
Site-Speed That Sticks
csswizardry
13
1.2k
The Cost Of JavaScript in 2023
addyosmani
55
10k
Documentation Writing (for coders)
carmenintech
77
5.4k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
330
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.4k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
720
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Transcript
作業記憶の発達的特性が⾔語獲得の臨界期を形成する ◯三⽥雅⼈1,2 吉⽥遼1 深津聡世1 ⼤関洋平1 1東京⼤学, 2サイバーエージェント 1 B4-6
2 前置き • 予稿に誤植があったためerrataを公開しています • 本発表ではその後の探究に基づく最新結果[Mita+’25]についても報告します cf. [Mita+’25]: Developmentally-plausible Working
Memory Shapes a Critical Period for Language Acquisition
LLMと⼈間の「⾔語獲得効率」における乖離 • LLMは多くの評価指標において⼈間と同等の性能を達するために ⼈間と⽐較して 3~4 桁多いデータ量を必要 [Warstadt+’23] 3 [Warstadt+’23] より
➢ ⼈間の⾔語処理や獲得過程からの「教訓」が存在しうることを⽰唆
⾔語獲得の臨界期仮説 • ⾔語を効率的に習得できる特定の時期が存在し, この時期を過ぎると その能⼒が低下するという理論 [Lenneberg’67] ◦ 幼少期に⾔語を聞く機会が制限された事例や第⼆⾔語習得における年齢の影響 など, 多くの研究が臨界期の存在を⽀持
[Mayberry&Fischer’89, Johnson&Newport’89, Newport’90] • 理論的視点 ◦ ⽣得論: ⾔語獲得は遺伝的にプログラムされた能⼒ [Chomsky’65, Pinker’94] ◦ 経験論: 社会的‧環境的要因, 特に⾔語的インプットの量と質によっても説明可能 [Elman+’96,Seidenberg&Zevin’06] 4 ➢ 臨界期の正確な境界やメカニズムは依然として議論が続いている
Less-is-More仮説 5 • 論拠 ◦ 幼児は処理可能な情報が限られるため,⾔語の基本的なパターンや構造 (例: ⽂法規則)を効率的に抽出できる ◦ ⼀⽅,⼤⼈は認知能⼒が⾼いがゆえに複雑な情報に気を取られ規則の学習
が妨げられる 幼児の認知的な制約(例: 短期記憶の容量や注意の範囲)がむしろ ⾔語学習に有利に働く[Newport’90] Less-is-More仮説
本研究の概要 • ⽬的 ◦ ✅⼈間の作業記憶の発達特性を⾔語モデルの学習に組み込みことで, 効率的な第⼀⾔語 (L1) 獲得が可能か検証 • 提案⼿法&検証⽅法
◦ 🔸学習初期では記憶を制限し, その後指数関数的に緩和する機構の導⼊ ◦ 🔸統語評価ベンチマーク上で記憶制限なし/静的制限ありの⼿法と⽐較 • 結果&貢献 ◦ 🚀提案⼿法が最も効率的な⽂法獲得を実現 ◦ 📌NLP: データ効率の良い⾔語モデル設計のための新たな⽅針を提供 ◦ 📌認知科学: 作業記憶の発達特性が臨界期の基盤メカニズムとなる可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 6
⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14
歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 7
⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14
歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 8 言語獲得の臨界期 [Lenneberg’67] 臨界期における作業記憶の発達的特性を⾔語モデルに組み込む ことで効率的な⾔語獲得が誘発されるか? RQ
作業記憶の認知モデリング • 作業記憶の発達は指数関数的に増加する形で モデル化可能: y = b − a x
(0 < a < 1) • 指数モデルの妥当性: ◦ 成熟した後の記憶容量の上限(漸近線)を表現可能 ◦ 幼児期の急速な成⻑を適切に表現 ◦ 線形や対数モデルよりも現実の発達パターンに適合 9 言語獲得の臨界期 [Lenneberg’67] 成人レベルの最大記憶容量 成長速度
⾔語モデルにおける「作業記憶」の制限⽅法 • 記憶の制限⼿法として, ⾔語モデルへの「新近性バイアス」を導⼊する ALiBi(Attention with Linear Biases)[Press+’22] を活⽤ ◦
注意スコアを計算する際, トークン間の距離に応じて負の線形ペナルティを付与 ◦ ⼈間の読解⾏動に近いサプライザルの推定が可能 [Clark+’25] • ALiBiを適⽤するうえでの課題 ◦ ALiBiの勾配 𝓂 は各注意ヘッドで固定のため静的な記憶制限を表現 ◦ ⼈間の作業記憶の発達特性(動的な記憶制限)を⼗分に反映できない 10 [Press+’22] より
提案⼿法: DynamicLimit-Exp • 学習の進⾏に応じて勾配𝓂を指数関数的に減少 • 記憶容量 𝑤 𝘵 は, モデル
に基づき 次式で既定 11 (𝓂 𝘵 : 初期勾配, r: 減衰率, 𝘵: エポック数) 𝓂 𝘵 = 𝓂 0 ·r𝘵 𝑤 𝘵 ≔ 1 − 𝓂 𝘵 ➢ モデルは初期段階では近距離の注意を重視し, 学習が進むにつれて ⻑距離の依存関係に注意を向けられる
実験設定 • ベースモデル ◦ GPT-2[Radford+’19]の⼩規模版(4層, 4注意ヘッド, 256次元) • データセット ◦
AO-CHILDES [Huebner&Willits’21] ▪ 英語圏のおよそ 1 ~ 6歳までの⼦ども向け発話(CDS)が年齢順に収録された 5M単語規模のデータセット ◦ Wikipedia ▪ 50万⽂をランダム抽出 cf. [Huebner+’21] • 評価 ◦ Zorro [Huebner+’21] ▪ ⽂法項⽬ごとに容認可能な⽂と不可能な⽂からなるミニマルペアを⽤いて ⾔語モデルの統語能⼒を評価するBLiMP[Warstadt+’20]のCDS特化版 ▪ seedを変えた3試⾏の平均値を報告 12 P(The lie on the foot is flat.) > P(*The lies on the foot is flat.) 臨界期効果は特定の⼊⼒刺激(例: CDS) or 学習メカニズムに起因するかを切り分け
ベースラインモデル • NoLimit(GPT-2に相当) ◦ 記憶制限をかけないモデル ◦ 学習初期から作業記憶が⼀定であり,思春期以降 に観察される発達が成熟した作業記憶を模倣 • StaticLimit(GPT-2
w/ ALiBiに相当) ◦ 注意スコア計算時にALiBiを適⽤したモデル ◦ 学習初期から学習後期にかけて⼀定の記憶制限 • DynamicLimit-Linear ◦ ALiBiの勾配𝓂を学習の進⾏に伴い「線形」に減少 させたモデル ◦ 作業記憶の発達特性の粗い近似 13 線形増加と指数関数的増加を公平に⽐較する ために記憶容量の初期値と最終値を統制
⾔語獲得における臨界期現象は再現されるか? ➢ L1獲得における臨界期現象の再現を確認 ◦ 作業記憶の発達特性が重要な役割を果たしている可能性を⽰唆 14 AO-CHILDES +5.7
臨界期効果は特定の⼊⼒刺激(データ)に依存するか? 15 ➢ 臨界期効果は⼊⼒刺激ではなく(⼦供特有の)学習メカニズムに起因 AO-CHILDES Wikipedia +5.7 +4.4
臨界期効果は “Less-is-More”に起因するか? 16 性能向上は作業記憶の「変化( ≠ 成長)」による 副作用(例: 情報量の増加)では?
臨界期効果は “Less-is-More”に起因するか? 17 反転した認知制約モデル を用いて検証 性能向上は作業記憶の「変化( ≠ 成長)」による 副作用(例: 情報量の増加)では?
臨界期効果は作業記憶の「成⻑」により誘発される 18
臨界期効果は作業記憶の「成⻑」により誘発される 19 (a) Mark fixed one worn canal, and Roger
fixed more (worn canals). (b) *Mark fixed one canal, and Roger fixed more worn. 例: ELLIPSIS(”省略”) 「more worn」だけでは完全な 意味を成さないため非文 省略された部分が明確に推測で きる場合のみ許容 長距離依存関係の維持 が必要 ➢ 学習初期段階から多くの記憶容量が必要な項目は提案手法ではうまくいかない可能性
段階的な記憶拡張は表現学習の質を向上させる • 埋め込みの多様性を維持し過度な圧縮を防ぐ • クラスター間の分離が保たれ学習が停滞しにくい • 異⽅性が抑制されより構造化された表現学習が可能 ◦ 埋め込み空間の等⽅性が統語的汎化を促進 [Diehl
Martinez+'24] 20 例: FILLER. GAP
まとめ • 作業記憶の発達特性を⾔語モデルに組み込む⼿法を提案 ◦ 学習初期では記憶を制限し, 学習の進⾏に伴い指数関数的に緩和する機構の導⼊ • 統語評価ベンチマークにおいて, 記憶制限なし/静的制限ありのモデル よりも優れた性能を確認
→ L1獲得における臨界期現象の再現 ◦ 段階的な記憶拡張により ▪ 初期に基本的なパターン抽出を優先し, 後に複雑な規則をブートストラップ的に 学習させることで規則の汎化を促進するとともに, ▪ 異⽅性が抑制されより構造化された表現学習の促進に寄与した可能性 • 主要な貢献 ◦ データ効率の良い⾔語モデル設計の新たな⽅向性の提⽰ ◦ ⼈間の作業記憶の発達特性が臨界期の効率的な⾔語獲得に関与する可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 21
22 付録
ベースモデル実験設定 23
Zorroの各⽂法項⽬リスト 24
埋め込み空間の変化(例: CASE) 25
訓練データの⽂⻑を変更した場合のZorro性能 26