Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Multimodal AI Driving Solutions to Societal Cha...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 30, 2025
Technology
2
190
Multimodal AI Driving Solutions to Societal Challenges
2025/11/28
CHUGAI INNOVATION DAY 2025招待講演資料
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 30, 2025
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
60
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
120
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
83
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
1
330
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
41
[Journal club] Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models
keio_smilab
PRO
0
14
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
73
[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
keio_smilab
PRO
0
100
[Journal club] Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
keio_smilab
PRO
0
180
Other Decks in Technology
See All in Technology
VRTと真面目に向き合う
hiragram
1
520
EventBridge API Destination × AgentCore Runtimeで実現するLambdaレスなイベント駆動エージェント
har1101
7
280
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
0
200
予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善
muziyoshiz
0
130
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
17k
月間数億レコードのアクセスログ基盤を無停止・低コストでAWS移行せよ!アプリケーションエンジニアのSREチャレンジ💪
miyamu
0
310
システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation
taddy_919
1
1k
Amazon S3 Vectorsを使って資格勉強用AIエージェントを構築してみた
usanchuu
1
290
re:Inventで出たインフラエンジニアが嬉しかったアップデート
nagisa53
4
230
みんなだいすきALB、NLBの 仕組みから最新機能まで総おさらい / Mastering ALB & NLB: Internal Mechanics and Latest Innovations
kaminashi
0
150
SREのプラクティスを用いた3領域同時 マネジメントへの挑戦 〜SRE・情シス・セキュリティを統合した チーム運営術〜
coconala_engineer
1
150
Claude Codeベストプラクティスまとめ
minorun365
53
30k
Featured
See All Featured
Discover your Explorer Soul
emna__ayadi
2
1.1k
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
90
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
300
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
110
How GitHub (no longer) Works
holman
316
140k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2k
Typedesign – Prime Four
hannesfritz
42
2.9k
HDC tutorial
michielstock
1
330
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
87
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
53
Transcript
慶應義塾大学 理工学部 教授 慶應AIセンター センター長 杉浦孔明 社会課題解決に挑むマルチモーダルAI
2025年のマルチモーダルAIの動向 2 言語・画像・音声・動画・コード・数式等 を扱うマルチモーダルLLM(2025/8) https://www.youtube.com/watch?v=boJG84Jcf-4 マルチモーダルベンチマークで最高性能更新 (2025/11) https://www.youtube.com/watch?v=98DcoXwGX6I Gemini 3
(Google) GPT-5 (OpenAI)
Embodied AIのユースケース 3 ロボット基盤モデル構築 6億米ドルのシリーズB資金を調達 (2025/11) 言語指示可能な自動運転を公道実証 10.5億米ドルのシリーズC資金を調達 (2024/5) Wayve
Figure AI https://www.youtube.com/watch?v=mU3TFv9Zi4I https://www.physicalintelligence.company/blog/pi0 Physical Intelligence
慶應AIセンター 4
慶大・カーネギーメロン大(CMU)によるAI連携 - - 5 ▪ 慶應に「まるでCMU」を作る ▪ 世界のトップオブトップとの産学連携 ▪ 他国の後塵を拝しているAI分野での挽回
▪ 92億円(10年間)規模の民間セクターからの支援 https://www.cs.cmu.edu/news/2024/us-japan-ai-partnership 計算機科学分野で米国ランキング首位 2025/4@慶應 2025/9@CMU
慶應AIセンターの体制と研究分野 6 マルチモーダル・多言語AI 斎藤英雄教授 杉浦孔明教授 高道慎之介准教授 松谷宏紀教授 峯島宏次准教授 青木義満教授 五十川麻理子准教授
Autonomous AI 栗原聡教授 杉本麻樹教授 髙橋正樹教授 今井倫太教授 大澤博隆准教授 矢向高弘教授 泰岡顕治教授 小山尚彦特任教授 畑中美穂准教授 舟橋啓教授 AI for Science ~20 Principal investigators ~18 Researchers >20 PhD students 成島康史教授
マルチモーダルAI - - 7
日常環境や公共空間で人を支援する生活支援ロボット [Yashima+ RAL25] [Goko+ CoRL2024] [Kaneda+ RAL24] [Nishimura+ IROS24] 社会課題
• 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない ドライバーの隣にあるサインペン を持ってきて 介助犬タスクの96%は 物体操作と開閉 https://www.toyota.com/usa/toyota-effect/romy-robot.html
大規模環境における実世界検索エンジンの概念実証 9 屋内 ドバイモール 万博の一部 300~ 2,000~ 50,000~ 検索可 操作可
適用不可 RT-1 [Brohan+, RSS23],π0 [Black+, RSS25] 10万平米以上で実証(東京国際フォーラム、本学キャンパス、グラングリーン等) カテゴリ数
パーソナルモビリティ向け移動指示理解 [Hosomi+ RAL24][Hosomi+ RAL25] [Katsumata+ CoRL25(採択率35.8%)] 10 【背景】 ▪ マップ上のピンでは粗いので、
言語で停車位置を指示したい 例:「歩行者と反対側に停車」 ▪ 停車可能位置は視覚的に明確な 境界がない 【技術ポイント】 ▪ ポリゴンに基づく提案手法は既 存手法より高性能かつ高速 自転車の後ろに停めて 本田技研との共同研究 マルチモーダルLLMより50倍高速
マルチモーダルLLMに対する人手評価を不要とする自動評価尺度 [Wada+ CVPR24](highlight 11,532投稿中上位3.6%)] [Matsuda+ EMNLP25(採択率22.2%)] [Hirano+ AAAI26 (採択率17.6%)] -
- 11 背景 ▪ 既存の自動評価尺度は、人手評価との相関が0.3しかない ⇔人同士の相関は0.6-0.7 技術ポイント ▪ 言語画像間の類似度をモデル化するTransformer型尺度 ▪ 世界最大の10倍のデータセットを構築・公開 結果 ▪ 人手との相関係数において0.58 (世界最高性能) 今後superhuman評価尺度が実現すれば、 人手評価から解放され、誰でも良質なデータセットが得られる Apple社との共同研究 説明:人通りの少なくなった道 路で,青いズボンを着た男の子 がオレンジ色のヘルメットを被 りスケートボードに乗っている
外科医の視野に近い手術動画生成 [Kato+ MICCAI25] 12 課題 ▪ 外科医の頭部や手で視野が遮蔽・自由視点ではない 技術ポイント ▪ 無影灯に設置したカメラ動画からの4D
Gaussian Splatting ▪ 4D=3D+時間 カメラ 出力:遮蔽のない 自由視点動画 4Dシーン 入力:5個のカメラ動画 斎藤英雄教授 五十川麻理子准教授 遮蔽
AI for Science 13
専門家予測を凌駕する太陽フレア予測モデル [Nagashima+ ICCV25(採択率24%)][Kaneda+ ACCV22(採択率33.4%)] [Nishizuka+ ApJ20] 背景: 太陽フレア由来の地磁気嵐による想定被害額≒40兆円(保険会社試算) ▪ SpaceXの人工衛星49基中40基が落下(日経新聞2022/4/26)
技術ポイント: ▪ 4年以上実運用され、専門家の予報業務において利用 ▪ 専門家を超える性能を達成 By NICT 極域を飛行する年間 約3万フライトに影響 2018/8/30朝日新聞1面 https://www.asahi.com/articles/ASL 8Z2QYJL8ZULBJ003.html [Nagashima+ ICCV25 (採択率24%)] 重要な領域 に注目
Deep SSMに基づく頭蓋内脳波デコーディング ※阪大 平田研との共同研究成果 15 背景: 運動企図分類によるコミュニケーション支援 技術ポイント: 二次の計算量がかかる自己注意 ではなく長期系列を扱う機構(Deep
SSM)を導入 結果: 神経生理学的に合理的かつ最高性能の手法を構築 手法 精度[%] S-Mamba [Wang+ Neurocomputing 25] 53.3 EEG Conformer [Song+ IEEE Trans. NSRE 22] 64.1 提案手法 75.1 ベースライン手法はどの 領域にも重要度を付与せず 提案手法は運動想起の関連 領域に配置された電極に注目
AI分野と生物学の融合領域 16 ▪ 代謝物予測AI ▪ 脳機能の解明のためのオルガノイド・インテリジェンス ▪ 次世代iPS細胞と細胞治療の創出:AIによるリプログラム 因子のデザイン 化合物
酵素 代謝物 REACTANT:O=C4¥C=C2/[C@]([C@H]1CC[C@@]3([C@@H]( O)CC[C@H]3[C@@H]1CC2)C)(C)CC4EC:1.3.1.22 O=C4C[C@@H]3CC[C@@H]2[C@H](CC[C@]1(C)[C@@H](O)C C[C@H]12)[C@@]3(C)CC4 5-alpha-還元酵素(EC 1.3.1.22) ジヒドロテストステロン テストステロン 小山尚彦特任教授 A. Joshi T. Kumagai
まとめ - - 17
まとめ - - 18 1. 慶應AIセンター 2. マルチモーダルAI 3. AI
for Science ※慶應AIセンターメンバー・JSPS・JST CREST・JSTムーンショット・ NEDO・SCOPE・Apple・トヨタ自動車・NICT・本田技研・大阪大学・中 部大学・本学共同研究者・研究室の学生・スタッフに感謝申し上げます。