Upgrade to Pro — share decks privately, control downloads, hide ads and more …

マルチモーダルLLMの応用動向の論文調査

Avatar for masatoto masatoto
November 30, 2023

 マルチモーダルLLMの応用動向の論文調査

社内のテックトークで紹介しました。
論文内で議論しているマルチモーダルLLMの活用方法や課題などを紹介しています。
詳しいアルゴリズムの話はしていません。

Avatar for masatoto

masatoto

November 30, 2023
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. サマリー︓マルチモーダルLLMの⼊⼒について Azure GPT-4V Foundational Models Defining a New Era in

    Vision: A Survey and Outlook LLMの⼊⼒が多様になってきました 4
  2. 応⽤①︓GUIナビゲーション GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone

    GUI Navigation スクショに対して次のユーザーの⾏動を聞く 精度 50/55 = 90.9% 11
  3. 購⼊までのフローをタスク完 了できるか A. 難しい GPT-4V in Wonderland: Large Multimodal Models

    for Zero-Shot Smartphone GUI Navigation メトリック︓エピソード中何ステップ正解したかの割合 9ステップ中6ステップが正しい挙動なら66.7% 最初から何⼿順まで進めたかではない ドメイン知識が必要 12
  4. 応⽤②︓複数画像から推論 On the Road with GPT-4V(ision): Early Explorations of Visual-Language

    Model on Autonomous Driving 時間遷移 異なる視点 異なる画⾯ 13
  5. 応⽤④︓エンジニアリングAI系 Evaluating Vision-Language Models for Engineering Design 15 有効的なケース ・デザイン・スケッチ分析

    ・コンセプト・デザイン段階の⽀援 それ以外のタスクは精度不⾜ より特化型の解法が必要 精度不⾜ 精度不⾜ 有効ケース 精度不⾜
  6. 現状のGPT-4V の限界 • OCR • 中国語や韓国語、⽇本語は難しい • 表やグラフ • 空セルが多い、傾きがある、回転している、密に配置されていると苦⼿

    • 座標⽣成 • 物体位置検出、セマンティックセグメンテーションは難しい • 画像の編集 • そもそもできない 17
  7. OCRの限界 EXPLORING OCR CAPABILITIES OF GPT-4V(ISION) : A QUANTITATIVE AND

    IN-DEPTH EVALUATION • イメージサイズが⼩さいと精度は低い • 通常のOCRに⽐べ、精度は低い • ⾔語でも精度に差がある 18
  8. 画像の座標問題の解決策︓モデルの学習① Florence-2: Advancing a Unified Representation for a Variety of

    Vision Tasks • 座標やピクセル値を⽣成するように学習する。 Florence-2はAzure AIが取り組んでいる。 24
  9. 画像の座標問題の解決策︓モデルの学習② NExT-Chat: An LMM for Chat, Detection and Segmentation エンべディングからbox,

    mask⽤のデコーダーを⽤意する。 異なる位置フォーマット(例︓バウンディングボックスやマスク)を会話に利⽤する。 27
  10. 具体的な結果 LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

    画像の編集 Semantic Seg 画像の編集 物体検知 39
  11. ⽬次 • Video-LLMの利⽤ユースケース • Video-LLMのタスク • Video QA • Video

    Summarization • Video Search • より最先端なタスク 48
  12. Video-LLMの利⽤ユースケース • Video Search • YouTube • Specialized archival sites

    • Enterprise video search tools • Video Classification • Contextual Advertising • Automated Video Editing • Sports Analysis • Content Moderation • Surveillance and Security • Video Clustering • video topic modeling • automatic video categorization • video content recommendation https://app.twelvelabs.io/blog/a-tour-of-video-understanding-use-cases • Video Description and Summarization • media and entertainment • e-commerce • education and training • marketing and advertising • social media platforms and content sharing websites • Video Question Answering • Customer Support • Educational Content • Interactive Media 50
  13. ⽬次 • Video-LLMの利⽤ユースケース • Video-LLMのタスク • Video QA • Video

    Summarization • Video Search • より最先端なタスク 51
  14. Video-LLMのタスク • Video QA • アプリケーション︓対話型アシスタント • Video Summarization •

    アプリケーション︓過去の録画内容の管理 • Video Search • アプリケーション︓シーン検索、オブジェクト検索など https://socraticmodels.github.io/ 52
  15. アプリケーション②︓過去の録画内容の管理 ⾃宅のカメラから1⽇を振り返るタスク - 要約やQAを活⽤ 場所が変われば応⽤は様々 ・医療介護、作業現場、オフィス、街 質問例 • Recall Reasoning

    • 今⽇運転したっけ︖ • Contextual Reasoning • なぜリビングルームに⾏ったんだっけ︖ • Temporal Reasoning • いつ最後に⼿を洗ったけ︖ • Subjective Reasoning • 今⽇はいい⽇だった︖ https://socraticmodels.github.io/ 54
  16. 応⽤②︓ With Audio Transcript PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

    より詳細に より詳細に • 動画の⾳声情報が回答に良い影響を及ぼす 65
  17. 応⽤④︓ Video Generator • Text2video • Image2video Stable Video Diffusion:

    Scaling Latent Video Diffusion Models to Large Datasets 67