SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから

大規模言語モデルと Vision & Languageのこれから 2024.6.13 栗田修平（画像センシング技術研究会）

目次 • 自己紹介 • 最近の仕事の紹介 • 「GPT-4Vで画像認識は終わるのか」に対する見解 • GPT-4Vの登場前後で自身の研究目標・仕事の仕方は変わったか？

1. RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of
Ego4D, Shuhei Kurita, Naoki Katsura, Eri Onami, (ICCV2023). 2. ScanQA: 3D Question Answering, Daichi Azuma(*), Taiki Miyanishi(*), Shuhei Kurita(*) and Motoaki Kawanabe. (CVPR2022). (*): eq. cont. 3. Generative Language-Grounded Policy in Vision-and-Language Navigation with Bayes’ Rule, Shuhei Kurita and Kyunghyun Cho, (ICLR2021). 4. Reconstructing neuronal circuitry from parallel spike trains, Ryota Kobayashi, Shuhei Kurita, …, Shinomoto Shigeru, Nature Communications (2019). 5. Neural Joint Model for Transition-based Chinese Syntactic Analysis, Shuhei Kurita, Daisuke Kawahara and Sadao Kurohashi, (ACL2017). Selected as Out-standing Paper in ACL2017. 栗田修平 (Shuhei Kurita) 2019年 3月博士（情報学）京都大学黒橋・河原研究室自然言語処理 2019年 4月 - 2023年3月理化学研究所特別研究員 2020年 1月 - NYU訪問研究員 2020年 12月 - JST さきがけ 2023年 4月 - 理化学研究所研究員 2024年 4月 - 現職 Selected Publications 国立情報学研究所助教研究テーマ: テキストと実世界・物理世界を繋げる Career

最近の仕事：テキストと実世界を繋げる [2] 大規模3次元質問応答データセット ScanQA の提案 [1] Vision and Language Navigationに対する
言語モデル（画像キャプションモデル）を用いた手法視覚・動作情報キャプションモデル指示文章 [3] テキストによる主観視点動画からの物体追跡 “the large white bowl with broccoli inside that is used to load the pan of broccol” ScanQA (CVPR2022). RefEgo (ICCV2023). Generative Language Grounded Policy (ICLR2021). • 文書処理 • 図表の読解 • 文書質問応答 • OCR • 実世界認識 • 参照表現理解 Visual grounding • 一人称動画理解 • ロボット応用

RefEgo: Ego4D上でのテキストからの物体追跡 A large tire with a gray rim in
the hands of the person. A red crate on the flat shopping cart in the middle of the isle. A small blue plate of broccoli to left of other plate. The red container near the wall, behind the two trays. Garage Kitchen Lab Supermarket

RefEgo: Dataset 5-sec. 24.8% 10-sec. 24.6% 15-sec. 36.7% 20-sec. 13.9%
• We constructed a object localization & tracking tdataset on Ego4D • 12,038 annotated clips of 41 hours total. • 2FPS for annotation bboxes with two textual referring expressions for a single object. • Objects can be out-of-frame (no-referred-object).

MDETR+BH Model The referred object in the images Blue colored
strainer inside the kitchen sink MDETR: 0.110 MDETR: 0.908 MDETR: 0.998 MDETR: 0.991 The referred object is difficult to detect The brown box with red writing, sitting on top of a blue box on the table

物体が「写っていない」ことをとらえる A red crate on the flat shopping cart in
the middle of the isle. MDETR (RefEgo) w/ Binary Head MDETR (RefCOCOg) off-the-shelf False positive detections!

JDocQA Dataset JDocQA: Japanese Document Ques on Answering Dataset for
Generative Language Models, Eri Onami, Shuhei Kurita, Taiki Miyanishi, Taro Watanabe (LREC-COLING2024).

GPT-4Vで画像認識は終わるのか • まだ終わらなそう • そもそもGPT-4Vの精度はまだ不完全 • 画像処理に近い所ではGPT-4Vにはできないタスクが多い • しかし5年後10年後にはかなり広いタスクに使えるかも？

（参考）ChatGPT 4o

（参考）ChatGPT 4

（参考）ChatGPT 4o Ego4Dからとってきた5枚画像 → 行動認識チョットデキル…？ → まだHallucination問題は残っている？

（参考）ChatGPT 4

GPT-4Vの登場前後で自身の研究目標・仕事の仕方は変わったか？ • 変わった • 複数のタスクを解けるモデルを重視するようになった • 単一タスクでのSoTAを必ずしも追わなくなった • ゼロショットでV&Lタスクを解けるモデルへ
• ただし、ここは目的によるかも • データを重視するようになった • OpenAIと他の企業・大学の違いは何か？ 1. OpenAIだけが知っている特殊な手法で実装している? → × 2. OpenAIは他よりもGPUを持っている? → × 3. OpenAIは他よりも量・質にすぐれたデータを持っている? → 〇強力かつデータリッチな他社が追いつけていないところを見るに自動手法によるデータ構築だけでは厳しい？ • 手法とデータの双方が重視される時代が来るかも

SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから

SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから

画像センシングシンポジウム
PRO

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript

大規模言語モデルと Vision & Languageのこれから 2024.6.13 栗田修平（画像センシング技術研究会）

目次 • 自己紹介 • 最近の仕事の紹介 • 「GPT-4Vで画像認識は終わるのか」に対する見解 • GPT-4Vの登場前後で自身の研究目標・仕事の仕方は変わったか？

1. RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of

最近の仕事：テキストと実世界を繋げる [2] 大規模3次元質問応答データセット ScanQA の提案 [1] Vision and Language Navigationに対する

RefEgo: Ego4D上でのテキストからの物体追跡 A large tire with a gray rim in

RefEgo: Dataset 5-sec. 24.8% 10-sec. 24.6% 15-sec. 36.7% 20-sec. 13.9%

MDETR+BH Model The referred object in the images Blue colored

物体が「写っていない」ことをとらえる A red crate on the flat shopping cart in

JDocQA Dataset JDocQA: Japanese Document Ques on Answering Dataset for

GPT-4Vで画像認識は終わるのか • まだ終わらなそう • そもそもGPT-4Vの精度はまだ不完全 • 画像処理に近い所ではGPT-4Vにはできないタスクが多い • しかし5年後10年後にはかなり広いタスクに使えるかも？

（参考）ChatGPT 4o

（参考）ChatGPT 4

（参考）ChatGPT 4o Ego4Dからとってきた5枚画像 → 行動認識チョットデキル…？ → まだHallucination問題は残っている？

（参考）ChatGPT 4