Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
Search
Masato Mita
March 11, 2025
Research
2
540
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
言語処理学会第31回年次大会(NLP2025) の発表資料
Masato Mita
March 11, 2025
Tweet
Share
More Decks by Masato Mita
See All by Masato Mita
国際会議ACL2024参加報告
chemical_tree
1
490
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
2
360
広告文生成タスクの規定とベンチマーク構築(NLP2023)
chemical_tree
0
520
論述リビジョンのためのメタ評価基盤
chemical_tree
0
360
ライティング支援のための文法誤り訂正
chemical_tree
2
1.8k
Other Decks in Research
See All in Research
SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery
satai
3
140
VAGeo: View-specific Attention for Cross-View Object Geo-Localization
satai
3
240
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
3.7k
A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images
satai
3
320
한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성
inureyes
PRO
0
370
言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について
petter0201
0
380
Data-centric AI勉強会 「ロボットにおけるData-centric AI」
haraduka
0
600
Dynamic World, Near real-time global 10 m land use land cover mapping
satai
3
240
NLP2025 WS Shared Task 文法誤り訂正部門 ehiMetrick
sugiyamaseiji
0
170
Optimal and Diffusion Transports in Machine Learning
gpeyre
0
1.6k
DPUを用いたマルチタスクDNN表情認識システムのFPGA実装
takuto_andtt
0
180
BtoB プロダクトにおけるインサイトマネジメントの必要性 現場ドリブンなカミナシがインサイトマネジメントに取り組むワケ / Why field-driven Kaminashi is working on insight management
kaminashi
1
420
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
693
190k
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.2k
How STYLIGHT went responsive
nonsquared
100
5.5k
Adopting Sorbet at Scale
ufuk
76
9.4k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
720
Writing Fast Ruby
sferik
628
61k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.3k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Transcript
作業記憶の発達的特性が⾔語獲得の臨界期を形成する ◯三⽥雅⼈1,2 吉⽥遼1 深津聡世1 ⼤関洋平1 1東京⼤学, 2サイバーエージェント 1 B4-6
2 前置き • 予稿に誤植があったためerrataを公開しています • 本発表ではその後の探究に基づく最新結果[Mita+’25]についても報告します cf. [Mita+’25]: Developmentally-plausible Working
Memory Shapes a Critical Period for Language Acquisition
LLMと⼈間の「⾔語獲得効率」における乖離 • LLMは多くの評価指標において⼈間と同等の性能を達するために ⼈間と⽐較して 3~4 桁多いデータ量を必要 [Warstadt+’23] 3 [Warstadt+’23] より
➢ ⼈間の⾔語処理や獲得過程からの「教訓」が存在しうることを⽰唆
⾔語獲得の臨界期仮説 • ⾔語を効率的に習得できる特定の時期が存在し, この時期を過ぎると その能⼒が低下するという理論 [Lenneberg’67] ◦ 幼少期に⾔語を聞く機会が制限された事例や第⼆⾔語習得における年齢の影響 など, 多くの研究が臨界期の存在を⽀持
[Mayberry&Fischer’89, Johnson&Newport’89, Newport’90] • 理論的視点 ◦ ⽣得論: ⾔語獲得は遺伝的にプログラムされた能⼒ [Chomsky’65, Pinker’94] ◦ 経験論: 社会的‧環境的要因, 特に⾔語的インプットの量と質によっても説明可能 [Elman+’96,Seidenberg&Zevin’06] 4 ➢ 臨界期の正確な境界やメカニズムは依然として議論が続いている
Less-is-More仮説 5 • 論拠 ◦ 幼児は処理可能な情報が限られるため,⾔語の基本的なパターンや構造 (例: ⽂法規則)を効率的に抽出できる ◦ ⼀⽅,⼤⼈は認知能⼒が⾼いがゆえに複雑な情報に気を取られ規則の学習
が妨げられる 幼児の認知的な制約(例: 短期記憶の容量や注意の範囲)がむしろ ⾔語学習に有利に働く[Newport’90] Less-is-More仮説
本研究の概要 • ⽬的 ◦ ✅⼈間の作業記憶の発達特性を⾔語モデルの学習に組み込みことで, 効率的な第⼀⾔語 (L1) 獲得が可能か検証 • 提案⼿法&検証⽅法
◦ 🔸学習初期では記憶を制限し, その後指数関数的に緩和する機構の導⼊ ◦ 🔸統語評価ベンチマーク上で記憶制限なし/静的制限ありの⼿法と⽐較 • 結果&貢献 ◦ 🚀提案⼿法が最も効率的な⽂法獲得を実現 ◦ 📌NLP: データ効率の良い⾔語モデル設計のための新たな⽅針を提供 ◦ 📌認知科学: 作業記憶の発達特性が臨界期の基盤メカニズムとなる可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 6
⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14
歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 7
⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14
歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 8 言語獲得の臨界期 [Lenneberg’67] 臨界期における作業記憶の発達的特性を⾔語モデルに組み込む ことで効率的な⾔語獲得が誘発されるか? RQ
作業記憶の認知モデリング • 作業記憶の発達は指数関数的に増加する形で モデル化可能: y = b − a x
(0 < a < 1) • 指数モデルの妥当性: ◦ 成熟した後の記憶容量の上限(漸近線)を表現可能 ◦ 幼児期の急速な成⻑を適切に表現 ◦ 線形や対数モデルよりも現実の発達パターンに適合 9 言語獲得の臨界期 [Lenneberg’67] 成人レベルの最大記憶容量 成長速度
⾔語モデルにおける「作業記憶」の制限⽅法 • 記憶の制限⼿法として, ⾔語モデルへの「新近性バイアス」を導⼊する ALiBi(Attention with Linear Biases)[Press+’22] を活⽤ ◦
注意スコアを計算する際, トークン間の距離に応じて負の線形ペナルティを付与 ◦ ⼈間の読解⾏動に近いサプライザルの推定が可能 [Clark+’25] • ALiBiを適⽤するうえでの課題 ◦ ALiBiの勾配 𝓂 は各注意ヘッドで固定のため静的な記憶制限を表現 ◦ ⼈間の作業記憶の発達特性(動的な記憶制限)を⼗分に反映できない 10 [Press+’22] より
提案⼿法: DynamicLimit-Exp • 学習の進⾏に応じて勾配𝓂を指数関数的に減少 • 記憶容量 𝑤 𝘵 は, モデル
に基づき 次式で既定 11 (𝓂 𝘵 : 初期勾配, r: 減衰率, 𝘵: エポック数) 𝓂 𝘵 = 𝓂 0 ·r𝘵 𝑤 𝘵 ≔ 1 − 𝓂 𝘵 ➢ モデルは初期段階では近距離の注意を重視し, 学習が進むにつれて ⻑距離の依存関係に注意を向けられる
実験設定 • ベースモデル ◦ GPT-2[Radford+’19]の⼩規模版(4層, 4注意ヘッド, 256次元) • データセット ◦
AO-CHILDES [Huebner&Willits’21] ▪ 英語圏のおよそ 1 ~ 6歳までの⼦ども向け発話(CDS)が年齢順に収録された 5M単語規模のデータセット ◦ Wikipedia ▪ 50万⽂をランダム抽出 cf. [Huebner+’21] • 評価 ◦ Zorro [Huebner+’21] ▪ ⽂法項⽬ごとに容認可能な⽂と不可能な⽂からなるミニマルペアを⽤いて ⾔語モデルの統語能⼒を評価するBLiMP[Warstadt+’20]のCDS特化版 ▪ seedを変えた3試⾏の平均値を報告 12 P(The lie on the foot is flat.) > P(*The lies on the foot is flat.) 臨界期効果は特定の⼊⼒刺激(例: CDS) or 学習メカニズムに起因するかを切り分け
ベースラインモデル • NoLimit(GPT-2に相当) ◦ 記憶制限をかけないモデル ◦ 学習初期から作業記憶が⼀定であり,思春期以降 に観察される発達が成熟した作業記憶を模倣 • StaticLimit(GPT-2
w/ ALiBiに相当) ◦ 注意スコア計算時にALiBiを適⽤したモデル ◦ 学習初期から学習後期にかけて⼀定の記憶制限 • DynamicLimit-Linear ◦ ALiBiの勾配𝓂を学習の進⾏に伴い「線形」に減少 させたモデル ◦ 作業記憶の発達特性の粗い近似 13 線形増加と指数関数的増加を公平に⽐較する ために記憶容量の初期値と最終値を統制
⾔語獲得における臨界期現象は再現されるか? ➢ L1獲得における臨界期現象の再現を確認 ◦ 作業記憶の発達特性が重要な役割を果たしている可能性を⽰唆 14 AO-CHILDES +5.7
臨界期効果は特定の⼊⼒刺激(データ)に依存するか? 15 ➢ 臨界期効果は⼊⼒刺激ではなく(⼦供特有の)学習メカニズムに起因 AO-CHILDES Wikipedia +5.7 +4.4
臨界期効果は “Less-is-More”に起因するか? 16 性能向上は作業記憶の「変化( ≠ 成長)」による 副作用(例: 情報量の増加)では?
臨界期効果は “Less-is-More”に起因するか? 17 反転した認知制約モデル を用いて検証 性能向上は作業記憶の「変化( ≠ 成長)」による 副作用(例: 情報量の増加)では?
臨界期効果は作業記憶の「成⻑」により誘発される 18
臨界期効果は作業記憶の「成⻑」により誘発される 19 (a) Mark fixed one worn canal, and Roger
fixed more (worn canals). (b) *Mark fixed one canal, and Roger fixed more worn. 例: ELLIPSIS(”省略”) 「more worn」だけでは完全な 意味を成さないため非文 省略された部分が明確に推測で きる場合のみ許容 長距離依存関係の維持 が必要 ➢ 学習初期段階から多くの記憶容量が必要な項目は提案手法ではうまくいかない可能性
段階的な記憶拡張は表現学習の質を向上させる • 埋め込みの多様性を維持し過度な圧縮を防ぐ • クラスター間の分離が保たれ学習が停滞しにくい • 異⽅性が抑制されより構造化された表現学習が可能 ◦ 埋め込み空間の等⽅性が統語的汎化を促進 [Diehl
Martinez+'24] 20 例: FILLER. GAP
まとめ • 作業記憶の発達特性を⾔語モデルに組み込む⼿法を提案 ◦ 学習初期では記憶を制限し, 学習の進⾏に伴い指数関数的に緩和する機構の導⼊ • 統語評価ベンチマークにおいて, 記憶制限なし/静的制限ありのモデル よりも優れた性能を確認
→ L1獲得における臨界期現象の再現 ◦ 段階的な記憶拡張により ▪ 初期に基本的なパターン抽出を優先し, 後に複雑な規則をブートストラップ的に 学習させることで規則の汎化を促進するとともに, ▪ 異⽅性が抑制されより構造化された表現学習の促進に寄与した可能性 • 主要な貢献 ◦ データ効率の良い⾔語モデル設計の新たな⽅向性の提⽰ ◦ ⼈間の作業記憶の発達特性が臨界期の効率的な⾔語獲得に関与する可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 21
22 付録
ベースモデル実験設定 23
Zorroの各⽂法項⽬リスト 24
埋め込み空間の変化(例: CASE) 25
訓練データの⽂⻑を変更した場合のZorro性能 26