Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから

SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから

More Decks by 画像センシングシンポジウム

Other Decks in Research

Transcript

  1. 1. RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of

    Ego4D, Shuhei Kurita, Naoki Katsura, Eri Onami, (ICCV2023). 2. ScanQA: 3D Question Answering, Daichi Azuma(*), Taiki Miyanishi(*), Shuhei Kurita(*) and Motoaki Kawanabe. (CVPR2022). (*): eq. cont. 3. Generative Language-Grounded Policy in Vision-and-Language Navigation with Bayes’ Rule, Shuhei Kurita and Kyunghyun Cho, (ICLR2021). 4. Reconstructing neuronal circuitry from parallel spike trains, Ryota Kobayashi, Shuhei Kurita, …, Shinomoto Shigeru, Nature Communications (2019). 5. Neural Joint Model for Transition-based Chinese Syntactic Analysis, Shuhei Kurita, Daisuke Kawahara and Sadao Kurohashi, (ACL2017). Selected as Out-standing Paper in ACL2017. 栗田修平 (Shuhei Kurita) 2019年 3月 博士(情報学) 京都大学 黒橋・河原研究室 自然言語処理 2019年 4月 - 2023年3月 理化学研究所 特別研究員 2020年 1月 - NYU訪問研究員 2020年 12月 - JST さきがけ 2023年 4月 - 理化学研究所 研究員 2024年 4月 - 現職 Selected Publications 国立情報学研究所 助教 研究テーマ: テキストと実世界・物理世界を繋げる Career
  2. 最近の仕事:テキストと実世界を繋げる [2] 大規模3次元質問応答データセット ScanQA の提案 [1] Vision and Language Navigationに対する

    言語モデル(画像キャプションモデル)を用いた手法 視覚・動作情報 キャプションモデル 指示文章 [3] テキストによる主観視点動画からの物体追跡 “the large white bowl with broccoli inside that is used to load the pan of broccol” ScanQA (CVPR2022). RefEgo (ICCV2023). Generative Language Grounded Policy (ICLR2021). • 文書処理 • 図表の読解 • 文書質問応答 • OCR • 実世界認識 • 参照表現理解 Visual grounding • 一人称動画理解 • ロボット応用
  3. RefEgo: Ego4D上でのテキストからの物体追跡 A large tire with a gray rim in

    the hands of the person. A red crate on the flat shopping cart in the middle of the isle. A small blue plate of broccoli to left of other plate. The red container near the wall, behind the two trays. Garage Kitchen Lab Supermarket
  4. RefEgo: Dataset 5-sec. 24.8% 10-sec. 24.6% 15-sec. 36.7% 20-sec. 13.9%

    • We constructed a object localization & tracking tdataset on Ego4D • 12,038 annotated clips of 41 hours total. • 2FPS for annotation bboxes with two textual referring expressions for a single object. • Objects can be out-of-frame (no-referred-object).
  5. MDETR+BH Model The referred object in the images Blue colored

    strainer inside the kitchen sink MDETR: 0.110 MDETR: 0.908 MDETR: 0.998 MDETR: 0.991 The referred object is difficult to detect The brown box with red writing, sitting on top of a blue box on the table
  6. 物体が「写っていない」ことをとらえる A red crate on the flat shopping cart in

    the middle of the isle. MDETR (RefEgo) w/ Binary Head MDETR (RefCOCOg) off-the-shelf False positive detections!
  7. JDocQA Dataset JDocQA: Japanese Document Ques on Answering Dataset for

    Generative Language Models, Eri Onami, Shuhei Kurita, Taiki Miyanishi, Taro Watanabe (LREC-COLING2024).
  8. GPT-4Vの登場前後で自身の研究目標・仕事 の仕方は変わったか? • 変わった • 複数のタスクを解けるモデルを重視するようになった • 単一タスクでのSoTAを必ずしも追わなくなった • ゼロショットでV&Lタスクを解けるモデルへ

    • ただし、ここは目的によるかも • データを重視するようになった • OpenAIと他の企業・大学の違いは何か? 1. OpenAIだけが知っている特殊な手法で実装している? → × 2. OpenAIは他よりもGPUを持っている? → × 3. OpenAIは他よりも量・質にすぐれたデータを持っている? → 〇 強力かつデータリッチな他社が追いつけていないところを見るに 自動手法によるデータ構築だけでは厳しい? • 手法とデータの双方が重視される時代が来るかも