Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成的コミュニケーション創発の展望:大規模言語モデルは集合的な世界モデルか?

650

 生成的コミュニケーション創発の展望:大規模言語モデルは集合的な世界モデルか?

2025/05/27 人工知能学会全国大会2025 [1B5-OS-41c] 世界モデルと知能
での講演資料です。

[関連資料]
Taniguchi, T., Ueda, R., Nakamura, T., Suzuki, M., & Taniguchi, A. (2024). Generative Emergent Communication: Large Language Model is a Collective World Model. arXiv preprint arXiv:2501.00226.

https://arxiv.org/abs/2501.00226

Avatar for Tadahiro Taniguchi

Tadahiro Taniguchi

May 27, 2025
Tweet

Transcript

  1. Generative Emergent Communication: LLM is a Collective World Model [Taniguchi+

    2024 (arXiv)] Taniguchi, T., Ueda, R., Nakamura, T., Suzuki, M., & Taniguchi, A. (2024). Generative Emergent Communication: Large Language Model is a Collective World Model. arXiv preprint arXiv:2501.00226.
  2. LLMは「世界モデル」を持っている︖ Gurnee, W., & Tegmark, M. (2023). Language models represent

    space and time. arXiv preprint arXiv:2310.02207. Yoshida, T., Masumori, A., & Ikegami, T. (2023). From Text to Motion: Grounding GPT-4 in a Humanoid Robot" Alter3". arXiv preprint arXiv:2312.06571. Hao, S., Gu, Y., Ma, H., Hong, J. J., Wang, Z., Wang, D. Z., & Hu, Z. (2023). Reasoning with language model is planning with world model. arXiv preprint arXiv:2305.14992. (EMNLP 2023) Osada, M., Garcia Ricardez, G. A., Suzuki, Y., & Taniguchi, T. (2024). Reflectance estimation for proximity sensing by vision-language models: Utilizing distributional semantics for low-level cognition in robotics. Advanced Robotics, 38(18), 1287-1306.
  3. 2種類の「世界モデル」 ① エージェント主観視点で知覚と行動のダ イナミックな関係をモデル化する内部モ デルとしての(環)世界モデル ② 客観的な「世界」の知識を持っていると いう意味での世界(の)モデル 本セッション Taniguchi,

    T., Murata, S., Suzuki, M., Ognibene, D., Lanillos, P., Ugur, E., Jamone, L., Nakamura, T., Ciria, A., Lara, B., & Pezzulo, G. (2023). World models and predictive coding for cognitive and developmental robotics: frontiers and challenges. Advanced Robotics, 37(13), 780-806. 「LLMが世界モデル持っているよ︕」 は②の意味で語られる事が多いが、実 は①の意味での「世界モデル」とも論 理的/計算論的に関連するのでは︖
  4. Symbol emergence systems [Taniguchi+ 2016] 記号創発システム Tadahiro Taniguchi, Takayuki Nagai,

    Tomoaki Nakamura, Naoto Iwahashi, Tetsuya Ogata, and Hideki Asoh, Symbol Emergence in Robotics: A Survey, Advanced Robotics, 30(11-12) pp.706-728, 2016. DOI:10.1080/01691864.2016.1164622 個体による 表現学習 集団による 記号創発 5
  5. 生成的コミュニケーション創発(Generative EmCom) メトロポリスヘイスティングス(MH)名付けゲーム Metropolis-Hastings naming game 1. Perception: SpeakerとListenerのエージェント(SpとLi)がd番目の対象 (Object)を観察し,内部表現(内的表象)を推論する(共同注意を仮定).

    2. Communication: Speakerは自らの信念状態にもとづき確率的に対象の名前 を発話(サンプリング)する.Listenerは自らの信念状態に応じた確率でその 名付けを受け入れるかどうかを決定する. 3. Learning:コミュニケーションの後,Listenerは,表現学習と名付けのための 内部パラメータを更新する. 4. Turn taking: SpeakerとListenerが役割を交代し,1へ戻る. Observation o u Semiotic Communication Representation learning Object Agent A Agent B Internal representations Speaker utters a sign as sampling Listener judges if it accepts the sign Observation Sign  Yoshinobu Hagiwara , Hiroyoshi Kobayashi, Akira Taniguchi and Tadahiro Taniguchi, Symbol Emergence as an Interpersonal Multimodal Categorization, Frontiers in Robotics and AI, 6(134), pp.1-17, 2019  Yoshinobu Hagiwara, Kazuma Furukawa, Akira Taniguchi & Tadahiro Taniguchi, Multiagent multimodal categorization for symbol emergence: emergent communication via interpersonal cross-modal inference, Advanced Robotics, 2022. 6 ※ 相手の名前と自分の想定していた名前が 自らの信念にどれだけ一致するかの比率
  6. Agent A Agent B Agent A Agent B Decomposition Composition

    記号創発システムの確率的グラフィカルモデル Taniguchi, T., Yoshida, Y., Matsui, Y., Le Hoang, N., Taniguchi, A., & Hagiwara, Y. (2023). Emergent communication through Metropolis- Hastings naming game with deep generative models. Advanced Robotics, 37(19), 1266-1282. 7 MH名付けゲームは分散型MCMCベイズ推論になる ※Neuro-SERKET による分解 私たちは言語を生み出すことで「脳をつなぐ」のと同等の認識統合を行える
  7. なぜ大規模言語モデルは世界を理解しているように見えるのか︖ 集合的予測符号化仮説 [Taniguchi ‘24]  自由エネルギー原理や世界モデルの延長線上で言語創発が議論可能  言語そのものが集合的な予測符号化によって形成されるために、世 界の情報が分布意味論の中にコーディングされている。 

    故に大規模言語モデルは「まるで身体を持っているかのように世界 を理解しているように振る舞う」のではないか? Friston, K., Moran, R. J., Nagai, Y., Taniguchi, T., et al., World model learning and inference. Neural Networks, 144, 573-590. (2021)  自由エネルギー原理:Fristonが主 唱。脳の適応性を予測(符号化) で統一的に説明する理論  世界モデル:エージェントが周囲 の環境を理解し予測するために内 部に構築する、環境の抽象的かつ 統合的な表現 K. Friston (UCL) ※構想提案者は同氏と世界 モデルと自由エネルギー原 理に関する共著論文を執筆 [Friston+ 2021]。 8 集合的予測符号化(Collective predictive coding )のイメージ図 [Taniguchi ‘24]
  8. 予測符号化 (世界モデルの学習) 9 Action Perception Internal representations (World models) Environment

    (World) 𝑃𝑃(𝑍𝑍𝑖𝑖 |𝑋𝑋𝑖𝑖 ) 観測 (マルチモーダル感覚運動情報) 内部表現 (世界モデル)  個人は環境との相互作用を通して予測符号化・世界モデルの学習を行 う。 𝒊𝒊 ∈ 𝑰𝑰: エージェント(人間)
  9. 予測符号化を行う集団 10 Action Perception Internal representations (World models) Environment (World)

    𝑃𝑃 𝑍𝑍𝑖𝑖 𝑋𝑋𝑖𝑖 𝑖𝑖∈𝐼𝐼 観測(マルチモーダル 感覚運動情報) 内部表現 (世界モデル) 𝒊𝒊 ∈ 𝑰𝑰: エージェント(人間)  それぞれの個人がそれぞれに予測符号化を行う。
  10. 集合的予測符号化 [Taniguchi ‘24] Action Perception Internal representations (World models) Environment

    (World) Utterance Interpretation Constraint Organization Language (Emergent symbol system) Collective predictive coding Symbol emergence 𝑃𝑃 𝑊𝑊, 𝑍𝑍𝑖𝑖 𝑖𝑖∈𝐼𝐼 {𝑋𝑋𝑖𝑖 }𝑖𝑖∈𝐼𝐼 外部表現 (言語/記号システム)  メトロポリス・ヘイスティングス名付けゲームを提案し、記号創発が複数の エージェントの認知を結合した系の分散的ベイズ推論(予測符号化)として表 現されることを示した [Taniguchi+ 2023](言語創発の全く新しい定式化)。  被験者実験により人間も同様に振る舞う可能性を示した [Okumura+ 2023]。 𝒊𝒊 ∈ 𝑰𝑰: エージェント(人間) 11
  11. 12 https://x.com/hayashiyus/status/1831309992638759210 Taniguchi, T., Takagi, S., Otsuka, J., Hayashi, Y.,

    & Hamada, H. T. (2024). Collective Predictive Coding as Model of Science: Formalizing Scientific Activities Towards Generative Science. arXiv preprint arXiv:2409.00102. Hayashi, Y. AI Alignment network Formulation of CPC based on the free energy principle [Taniguchi+ 2024] 1. Ordinary variational free energy × Number of agents (Representation learning, predictive coding, world model learning) 2. Collective regularization term (Alignment of external representation w conditioned by internal representation z and, symbol emergence)
  12. キャプション生成ゲームを通じた 複数の視覚言語モデルのベイズ的統合 [Matsui+ 2025] Matsui, Y., Yamaki, R., Ueda, R.,

    Shinagawa, S., & Taniguchi, T. (2025). Metropolis-Hastings Captioning Game: Knowledge Fusion of Vision Language Models via Decentralized Bayesian Inference. arXiv preprint arXiv:2504.09620. Intractable Posterior Caption: VLM A VLM B a dog holds his head out of a car window. Observation a dog holds his head out of a car window. Learning Inference Observation Repeat VLM A (Speaker) A dog leans out of the vehicle VLM B (Listener) A black car moves along the street 2. Proposal Previous Caption A black car moves along the street Acceptance probability Accept or Reject 1. Perception Observation A 3. Judgement Updated Caption Observation B A black car moves along the street 4. Learning VLM B (Listener)  発話部分に言語モデル(GPT-2)を導入  VLMに基づくMHNGをキャプション生成ゲームとして拡張  異なる知識(COCO, CC3M pretrained)を持つエージェント同士がコミュニ ケーションを通して表現をあわせて行く様子を表現  破滅的忘却を抑制しながら「お互いがお互いから学ぶ」ことを実現
  13. VLM EmCom Image captioning & generation VLM EmCom Video captioning

    & generation VLA EmCom Action-dependent video captioning & video and action prediction ≒World models
  14. まとめ  大規模言語モデル(LLM)は「集合的な世界モデル」として 解釈可能(っぽい)  複数の人間エージェントの経験が言語という形で統合された外 部表現  内部表現(world model)の学習と表現を媒介する

     集合的予測符号化仮説(CPC)に基づく視点  言語とは人間社会における分散的ベイズ推論の結果  記号創発システムの定式化として、表現学習と生成を説明可能  記号創発と世界モデルの接続  生成的コミュニケーション創発の枠組みで捉えると世界モデル による表現学習をマルチエージェントシステムへと敷衍して記 号創発が扱える。  「理解しているように振る舞う」理由  分布意味論に世界の知識がエンコードされているため  自由エネルギー原理に基づく予測符号化プロセスとの整合性  今後の課題と展望  ロボティクスや視覚・行動データを用いた実証研究が必要  人間の言語との対応関係や汎用性の評価 𝑷𝑷( ) Better than