Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision and LanguageからのEmbodied AIとAI for Science

Vision and LanguageからのEmbodied AIとAI for Science

SUMO.ai #01で利用
https://sumo-ai.connpass.com/event/356533/

Vision and Languageはコンピュータビジョン分野と自然言語処理分野の融合分野です。

深層学習、特にTransformerベースのアーキテクチャの確立によって、マルチモーダルな生成AIの主流の一つとして現在まで非常に多くの研究が進められています。更に昨今では、Vision-Language-Actionモデルを中心としたEmbodied AIがロボットなどに搭載されたり、そうしたAIによって研究開発そのものをターゲットとしたAI for Scienceの試みが広がったりと、自律社会への端緒が開けつつある状況です。本講演では、こうしたVision and Languageの流れから最近の研究まで、講演者の研究事例を交えつつ概観しています。

Avatar for Yoshitaka Ushiku

Yoshitaka Ushiku PRO

July 25, 2025
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Research

Transcript

  1. Vision and Language からの Embodied AIとAI for Science 牛久 祥孝

    losnuevetoros 株式会社NexaScience/オムロンサイニックエックス株式会社
  2. 自己紹介 2013.6~2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研

    研究員 2016.4~2018.9 東京大学 講師 (原田牛久研究室) 2018.10~2024.3 オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社 Ridge-i Chief Research Officer 2022.1~ 合同会社ナインブルズ 代表 2023.10~ 国立研究開発法人産業技術総合研究所 覚醒プロジェクト プロジェクトマネージャー 2023.12~ 理化学研究所 客員主管研究員 2024.4~ オムロンサイニックエックス株式会社 Vice President for Research 2024.10~ 株式会社NexaScience 代表取締役 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.
  3. 2011 2012 2014 電話音声認識のエラー率が 30%程度→20%以下に [Seide+, InterSpeech 2011] 大規模画像分類のエラー率が 25%程度→15%程度に

    [Krizhevsky+, NIPS 2012] シンプルな翻訳手法の精度が 複雑なシステムと同等に [Sutskever+, NIPS 2014]
  4. 2011 2012 2014 電話音声認識のエラー率が 30%程度→20%以下に [Seide+, InterSpeech 2011] 大規模画像分類のエラー率が 25%程度→15%程度に

    [Krizhevsky+, NIPS 2012] LSTMで英仏翻訳の精度が 複雑なシステムと同等に [Sutskever+, NIPS 2014]
  5. 2013 VAE [Kingma+Welling, ICLR’14] 2014 GAN [Goodfellow+, NIPS’14] 2015 DCGAN

    [Radford+, ICLR’16] 2016 文章+GAN [Reed+, ICML’16] 2017 pix2pix [Isola+, CVPR’17] [Zhu+, ICCV’17] 2020 NeRF [Mildenhall+, ECCV’20] 2021 DALL·E [Ramesh+, 2021] 2022 拡散モデル [Ramesh+, 2022] [Rombach+, CVPR’22] 2018 多段GAN [Karras+, ICLR’18] [Zhang+, TPAMI’18] 2019 StyleGAN [Karras+, CVPR’19] 2023 3DGS [Kerbl+, SIGGRAPH’23] 2024 長尺動画 [Brooks, Peebles+, 2024]
  6. いにしえのVision and Language • 参照表現理解=”ウォーリーを探せ” • 歴史はとても長い – SHRDLU [Winograd,

    1972] の一機能として 積み木の世界での参照表現理解を実現 [Yu+, CVPR 2017
  7. Every picture tells a story データセット: 画像+<object, action, scene>+キャプション 1.

    画像の<object, action, scene>をMRFで推定 2. <object, action, scene>が同じキャプションを検索して利用 <Horse, Ride, Field> [Farhadi+, ECCV 2010]
  8. Every picture tells a story <pet, sleep, ground> See something

    unexpected. <transportation, move, track> A man stands next to a train on a cloudy day. [Farhadi+, ECCV 2010]
  9. Visual Question Answering (VQA) 最初はユーザインタフェース分野で注目 • VizWiz [Bigham+, UIST 2010]

    AMTで人力解決 • 初の自動化(ディープラーニング不使用) [Malinowski+Fritz, NIPS 2014] • 類似用語:Visual Turing Test [Malinowski+Fritz, 2014]
  10. Visual Question Answering (VQA) 最初はユーザインタフェース分野で注目 • VizWiz [Bigham+, UIST 2010]

    AMTで人力解決 • 初の自動化(ディープラーニング不使用) [Malinowski+Fritz, NIPS 2014] • 類似用語:Visual Turing Test [Malinowski+Fritz, 2014] このような経緯から… つぎのような様々な取り組みが!
  11. 画像キャプション生成 Group of people sitting at a table with a

    dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015]
  12. 画像キャプション生成 Group of people sitting at a table with a

    dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015] ②Image2Text 入力:ビジュアルデータ → 出力:テキストデータ
  13. キャプションからの画像生成 [Ramesh+, 2021] An illustration of a baby hedgehog in

    a wizard hat riding a car A photo of the food of japan ③Text2Image 入力:テキストデータ → 出力:ビジュアルデータ
  14. ビジュアル対話 Questioner Answerer A couple of people in the snow

    on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017]
  15. ビジュアル対話 Questioner Answerer A couple of people in the snow

    on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017] ⑤Image+Text2Text 入力:ビジュアルデータ+テキストデータ → 出力:テキストデータ
  16. ICRA 2024 CHI 2024 ICLR 2024 ECCV 2024 近未来を作る会社 オムロン

    サイニックエックス株式会社 近未来の社会から必要とされる革新的技術を手繰り寄せ、 社会実装を実現するための具体的なアーキテクチャを創出 するミッションを背負い、2018年、東京本郷の地で 立ち上がりました。 Robotics, CV, NLP, ML, HCIといった広い分野に おける研究を通して、近未来デザインの創出を 目指しています。
  17. 手前味噌タイム:作業記録動画像からマニュアル自動生成 [Nishimura+, MTA 2023] (a) Cut the pork in half

    and remove the pork 豚肉を半分に切り、豚肉を取り出す (b) Season the pork with salt and pepper 豚肉に塩・胡椒をする (c) Season the pork with salt and pepper 豚肉に塩・胡椒をする (d) Heat some butter in a pan フライパンでバターを熱する (e) Coat the pork in the break crumbs 豚肉にパン粉をまぶします (f) Fry the pork in a pan フライパンで豚肉を炒めます [日経新聞2022年10月18日 朝刊 https://www.nikkei.com/article/DGXZQOUC297B00Z20C22A9000000/]
  18. Egocentric Biochemical Video-and-Language Dataset (BioVL) • 調理以外の作業を理解する→生化学実験 • 4種類の実験をそれぞれ4回撮影したデータセット –

    PCR, ミニプレップ, DNA抽出, アガノースゲル作成 – DNA抽出は, フェノールクロロホルム抽出2回, エタノール抽出2回 – 撮影後, 手順とvideoのイベントをアノテーション [Nishimura+, ICCV WS 2021]
  19. 新材料の物性を予測するには ここでは材料=結晶構造 例: 転移学習による超高格子熱伝導材料の熱伝導率 推定[Ju+, Phys. Rev. Materials’21] • 手動特徴量設計+機械学習

    • 深層学習による同時最適化 • 従来の深層学習:グラフベース – 計算量が大きい – エッジをどう張る? 特徴量に求められる性質 順列不変 並進回転(SE(3))不変 周期境界のずれ不変 構造の繰り返し [Xie+Grossman, Phys. Rev. Lett. 20 [Taniai+, ICLR 2024] [Ito+, ICLR 2025]
  20. 関数同定問題 Symbolic Regression 観測された実験結果を数式として理解する • データセット:表 – 時刻 – リンゴのY座標

    • 目的 – 変数間の関係を示す式の発見 = テーブルデータから数式への変換 [Lalande+, NeurIPS 2023 WS]
  21. 自律駆動研究OSS AIRAS AIRASとは: • OSSとして公開した自律駆動研究ソフト ウェア (https://github.com/auto- res/researchgraph) • 論文検索→融合的アイディア生成→実験計

    画・実行→論文執筆を自動で実行可能 • “卒論レベル”の論文は既に生成可能 熊谷亘氏が主導するプロジェクトAutoResで開発
  22. 国内でもAIロボット基盤モデルを作ろう! • AIロボット協会(AIRoA) – 2024年12月に設立され、理事長は早稲田大学の尾形哲也教授 – 2025年3月27日に早稲田大学で記者会見を開き、活動を本格化すると発表 • 目的はAIとロボットを融合した「ロボットデータエコシステム」の構築 –

    大規模なロボット稼働データの収集・統合・学習による「ロボット基盤モデル」 – 2025年内に実施する初期開発では汎用スキルデータセットと基盤モデルを公開 • 会員企業 – 正会員14社(トヨタ、日産、KDDI、富士通など) – 育成会員8社で構成
  23. まとめ • Vision and Language – 老人しぐさを無事に発露した • AI for

    Science – 過去の流れと手前味噌のAI Robot for Materialsの研究を紹介した – Vision and Language の考え方は随所で活かされている • Embodied AI – AI for Scienceでもロボット化の流れが来ている – Vision and Languageの流れからもEmbodied AIが注目されている