大規模言語モデルによる視覚・言語の融合/Large Vision Language Models

Copyright 2022 NTT CORPORATION Copyright 2024 NTT CORPORATION ⼤規模⾔語モデルによる視覚・⾔語の融合⽥中
涼太 NTT ⼈間情報研究所 / 東北⼤学第12回岡⼭⼤学AI研究会

Copyright 2022 NTT CORPORATION 1 Copyright 2024 NTT CORPORATION n
2020~ NTT⼈間情報研究所研究員 n 2023~ 東北⼤学社会⼈博⼠ n 研究分野: Vision & Language l 視覚的に⽂書を読み解く「⽂書画像理解」を中⼼に取り組んでいます⾃⼰紹介: ⽥中涼太⽂書画像理解 [AAAI’21, AAAI’23 , AAAI’24] Multi-page QA w/ Multi-hop & Discrete & Visual Reasoning on Form on Slide deck on Figure Input: There are 4 categories for selection: “title”, “key”, “value”, and “other”. Please output the category corresponding to the text “CASE FORM”. Output: title Input: Respond to the question " What is the difference in the competition media percentage between East and the region with 12% of journalists? " with a short answer based on the content of the multi-page document. Answers contain either: - a span inside of the document - a list of spans inside of document (each span should be separated by ",") - not exist explicitly as a span of the document (the answer should be freely generated text) Output: 5% (11%-6%) Input: Please write a one-sentence description of what is presented in the figure. Output: Robustness of the generalization error with respect to a Gaussian corruption noise added to the input, and the model trained with the combination of input noise and Jacobian regularization is more robust. Key Information Extraction Captioning LLM (tsuzumi) のマルチモーダル対応 https://group.ntt/jp/newsrelease/2024/04/12/240412b.html

Copyright 2022 NTT CORPORATION 2 Copyright 2024 NTT CORPORATION Vision&Languageとは︖
n 視覚 (Vision) と⾔語 (Language) を組み合わせて，課題解決を⾏う研究分野バナナの⾊は何ですか︖ ⻩⾊です⼥性がバナナを⾝につけています⼝髭の形をしたバナナ Visual Question Answering (VQA) Image Captioning Visual Grounding

Copyright 2022 NTT CORPORATION 3 Copyright 2024 NTT CORPORATION LLM
x Vision&Languageの驚きの能⼒ (1/3) n 汎⽤的な知識 l LLMの内部知識を補完することで，表層的に分かる以上の情報を提供常識: VGAがスマホの充電ポートに刺さっていることが⾯⽩い知識: VGAが15pinのケーブルであることは画像だけでは，分からない

x Vision&Languageの驚きの能⼒ (2/3) n ゼロショット性能 l ⾒たことのない画像やタスクに対して，よしなに応答してくれる左側に⼤きな⾻盤内腫瘤がある

x Vision&Languageの驚きの能⼒ (3/3) n ⾼度な推論能⼒ l LLMが獲得している推論能⼒を，画像に対しても適⽤可能右上の図にある，星の真ん中にドットがついたもの

Copyright 2022 NTT CORPORATION 6 Copyright 2024 NTT CORPORATION 本⽇の内容
n Vision&Languageの変遷 (15分) n LLMによるVision&Languageの今 (15分) n LLMによるVision&Languageの課題 (15分)

Copyright 2022 NTT CORPORATION 7 Copyright 2024 NTT CORPORATION Vision&Languageのパラダイムシフト
n BERT，CLIP，LLMの活⽤により，⾔語理解・視覚認識・推論能⼒が⾶躍的に向上 2019 2023 2021 CLIPの視覚認識能⼒を活⽤ LLMの推論能⼒を活⽤ - LXMERT - VisualBERT - VL-BERT - UNITER - Oscar - ViLBERT - GRIT - CLIP-ViL - CoCa - GiT - BLIP - SimVLM - BLIP2 - MiniGPT4 - LLaVA - mPLUG-OWL - InstructBLIP - LLaMA-Adapter BERTの⾔語理解能⼒を活⽤

Copyright 2022 NTT CORPORATION 8 Copyright 2024 NTT CORPORATION 深層学習時代初期の解法と課題
n 画像分類で事前学習された画像エンコーダと，⾔語をエンコードするモデル (LSTMなど) の出⼒を統合し，⽬的のタスクでスクラッチ学習 VQAタスクの場合タスクに共通する視覚⾔語知識が蓄積しない数⼗万オーダの学習データが必要 Agrawal+, VQA: Visual Question Answering. ICCV’15

Copyright 2022 NTT CORPORATION 9 Copyright 2024 NTT CORPORATION BERT
[Devlin+, NAACL’19] n ⼤量の⾃⼰教師データを基に学習されたTransformerモデル．事前学習後，タスクに特化した学習を⾏うことで，⾔語理解を問うタスクで⾼い性能を発揮 l Masked Language Modeling (MLM): マスクされた単語を予測 l Next Sentence Prediction (NSP): ⼆つの⽂章の繋がりの⾃然さを⼆値分類 NSP BERT (Transformerエンコーダ) 名前 Yes/No MLM [CLS] [SEP] 吾輩は猫である [MASK] はまだ無い Devlin+, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL’19

Copyright 2022 NTT CORPORATION 10 Copyright 2024 NTT CORPORATION BERT
(事前学習⾔語モデル) の活⽤ ① Web上の画像・テキストペアを⼤量に収集し，事前学習⾔語モデルを事前学習 ② ⽬的のタスクでファインチューニング店内でオレンジジュースをカップに注いでいる⼥性⼤量に収集事前学習⾔語モデル事前学習 V&Lモデル Q: バナナの⾊は︖ A: ⻩⾊⽐較少量 (数千-数万) のサンプルを⽤意 Web ① Vision&Language事前学習 ② ファインチューニング BERTなど汎⽤的な視覚⾔語の知識を獲得 n 事前学習⾔語モデルを活⽤し，汎⽤的な視覚⾔語の知識を獲得

Copyright 2022 NTT CORPORATION 11 Copyright 2024 NTT CORPORATION 代表的なV&L事前学習タスク
[SEP] 店内でオレンジ … [CLS] … [MASK] [MASK] ITM n Masked Language/Image Modeling (MLM/MIM) l BERTと同様にマスクされたトークン (画像や⾔語) を復元 n Image Text Matching (ITM) l 画像とテキストのペアが正しいものかを予測⼥性 Yes/No MLM MIM Transformerエンコーダ

Copyright 2022 NTT CORPORATION 12 Copyright 2024 NTT CORPORATION Oscar
[Li+, ECCV’20] n 物体検出から得られた物体の名前 (Object Tags) と領域を同時に⼊⼒することで，画像内の物体と⾔語の関係性を明⽰的に学習可能 l 物体検出器が扱うクラスを⼤規模化することで，更なる性能向上 [Zhang+, CVPR’21] Li+, Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks, ECCV’20

Copyright 2022 NTT CORPORATION 13 Copyright 2024 NTT CORPORATION 物体検出の限界
⾷品⾷器フォーク⾷器⾷器商⽤の物体検出APIの結果各種Webサービスのアイコンを認識できず⾷品や⾷器の細かい違いが認識できていないマットやコーヒーについて認識漏れオブジェクト検出なし n 物体検出がカバーできる物体には限界があり，下流タスクの性能に⼤きく影響 l 外部のモジュールに影響されない汎⽤的な画像理解が求められる

n BERT，CLIP，LLMの活⽤により，⾔語理解・視覚認識・推論能⼒が⾶躍的に向上 CLIPの視覚認識能⼒を活⽤ LLMの推論能⼒を活⽤ - LXMERT - VisualBERT - VL-BERT - UNITER - Oscar - ViLBERT - GRIT - CLIP-ViL - CoCa - GiT - BLIP - SimVLM - BLIP2 - MiniGPT4 - LLaVA - mPLUG-OWL - InstructBLIP - LLaMA-Adapter BERTの⾔語理解能⼒を活⽤ 2019 2023 2021

画像とテキストの⼤量のペアを⽤いて，対応するペアの類似度を⾼くし，その他のペアの類似度を低くする対照学習を実施 l One-hot画像分類では獲得できない，画像とテキストの意味をアライン可能 CLIP [Redford+, ICML’21] 通常のOne-hot画像分類画像エンコーダが何の⾔語特徴と結びついているか理解できない CLIP (Contrastive Language-Image Pre-training) 1/0のラベル Radford+, Learning Transferable Visual Models From Natural Language Supervision, ICML’21

Copyright 2022 NTT CORPORATION 16 Copyright 2024 NTT CORPORATION CLIP-ViL
[Shen+, ICLR’22] n 事前学習済みのCLIP Vision EncoderをV&Lモデルに再利⽤ l 画像分類や物体検出タスクで事前学習を⾏なったResNetよりも， CLIPは視覚的特徴をより正確に捉えることが可能 CLIP事前学習 > 物体検出 > 画像分類 Shen+, How Much Can CLIP Benefit Vision-and-Language Tasks?, ICLR’22

Copyright 2022 NTT CORPORATION 17 Copyright 2024 NTT CORPORATION RegionCLIP
[Zhong+, CVPR’22] n CLIPがRegion理解に弱い問題に挑戦 l CLIP事前学習後に，Regionとテキストのペアを基に対照学習を⾏う画像全体とテキストのペアで学習するCLIPは， Regionの特徴を捉えれない Zhong+, RegionCLIP: Region-based Language-Image Pretraining, CVPR’22

Copyright 2022 NTT CORPORATION 18 Copyright 2024 NTT CORPORATION DueT
[Hasegawa&Nishida+, EMNLP’23] n モーダル単体で事前学習された画像・テキストエンコーダの能⼒を維持しつつ，パラメータ効率が良い学習⼿法の提案 l Adapter (モデル全体の3.64%) によって，更新すべきパラメータを制御することで，モデル全体を学習するFine-tuningなどよりも良い性能を達成 Adapter Hasegawa&Nishida+, DueT : Image-Text Contrastive Transfer Learning with Dual-adapter Tuning, EMNLP’23

Copyright 2022 NTT CORPORATION 19 Copyright 2024 NTT CORPORATION CLIPによって実現した技術
(1/2) DALL-E 2 [Ramesh+, arxiv’22] ViLD [Gu+, ICLR’22] CLIPと拡散モデルによるテキストからの画像⽣成 Toy duck Green toy Blue toy CLIPの画像表現を蒸留することで，任意クラスに対して物体検出が可能物体検出結果 CLIPの画像エンコーダの出⼒に近づける Toy duck 画像⽣成 Open-Vocabulary物体検出 Remesh+, Hierarchical Text-Conditional Image Generation with CLIP Latents, arXiv’22 Gu+, Open-vocabulary Object Detection via Vision and Language Knowledge Distillation, ICLR’22

Copyright 2022 NTT CORPORATION 20 Copyright 2024 NTT CORPORATION CLIPによって実現した技術
(2/2) モーション⽣成 3Dオブジェクト⽣成 MotionCLIP [Tevet+, ECCV’22] AvatarCLIP [Hong+, SIGGRAPH’22] モーション系列とCLIPの画像・テキスト表現を結びつけるモーション⽣成例モーション合成例 CLIP空間とオブジェクトの形状やテクスチャ，モーションなどを結びつける Tevet+, MotionCLIP: Exposing Human Motion Generation to CLIP Space, ECCV’22 Hong+, AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars, SIGGRAPH’22

Copyright 2022 NTT CORPORATION 21 Copyright 2024 NTT CORPORATION 課題:
推論能⼒ n 事前に学習されたタスクしか基本的に対応できない事前学習モデル学習: Image Captioning 事前学習モデル推論: Visual Question Answering バナナの⾊は何ですか︖ 分かりません⻩⾊バナナを付けた⼥性

Copyright 2022 NTT CORPORATION 22 Copyright 2024 NTT CORPORATION 課題:
推論能⼒ n 6~8歳児でも解ける簡単な推論問題ですら，zero-shotでは10%程度しか解けない Cherian+, Are Deep Neural Networks SMARTer than Second Graders?, CVPR’23

n BERT，CLIP，LLMの活⽤により，⾔語理解・視覚認識・推論能⼒が⾶躍的に向上 CLIPの視覚認識能⼒を活⽤ LLMの推論能⼒を活⽤ - LXMERT - VisualBERT - VL-BERT - UNITER - Oscar - ViLBERT - GRIT - CLIP-ViL - CoCa - GiT - BLIP - SimVLM - BLIP2 - MiniGPT4 - LLaVA - mPLUG-OWL - InstructBLIP - LLaMA-Adapter BERTの⾔語理解能⼒を活⽤ 2019 2023 2021

Copyright 2022 NTT CORPORATION 25 Copyright 2024 NTT CORPORATION ⼤規模⾔語モデル
(LLM: Large Language Models) n ⼤規模なコーパスで訓練された⼤規模なパラメータを持つ⾔語モデル l LLama3の場合，70Bモデルのサイズを，15兆トークンのコーパスで，6.4MGPU時間の学習 l (ただし，どれだけ⼤規模にすればLLMと呼べるかコンセンサスは取れていない．) ⼤規模⾔語モデル (ベース) ⼤規模⾔語モデル汎⽤ニューラルネット構造⼤規模コーパスで事前学習指⽰チューニング (+ アライメント)

Copyright 2022 NTT CORPORATION 26 Copyright 2024 NTT CORPORATION LLMの事前学習タスク
Transformerデコーダ [sos] 吾輩は猫であるはまだ無い名前吾輩は。猫であるはまだ無い名前。 [eos] n ⼊⼒に続く単語 (トークン) を確率に基づいて，⾃⼰回帰的に予測する

Copyright 2022 NTT CORPORATION 27 Copyright 2024 NTT CORPORATION LLMの事前学習コーパス
n Webページ，対話データ，ニュース記事，論⽂，コードなどのデータを組み合わせてデータを構築 l どのような割合で配合すべきかは，作りたいLLMによって異なる Zhao+, A Survey of Large Language Models, arXiv’23

Copyright 2022 NTT CORPORATION 28 Copyright 2024 NTT CORPORATION 指⽰チューニング
[Wei+, ICLR’22] n 様々なタスクの指⽰と回答のペアを学習することで，未学習の未知のタスクに対しても対応可能 Wei+, Finetuned Language Models Are Zero-Shot Learners, ICLR’22

Copyright 2022 NTT CORPORATION 29 Copyright 2024 NTT CORPORATION Scaling
Laws [Kaplan+, arXiv’20] n ⾔語モデルの性能は経験的に、「訓練に使われた計算量」「データサイズ「モデルサイズ」の3つの要素に対してスケーリングすることを⽰した l スケーリングの限界が⽰されてない Kaplan+, Scaling Laws for Neural Language Models, arXiv’20

Copyright 2022 NTT CORPORATION 30 Copyright 2024 NTT CORPORATION LLMの⼤規模化
n Scaling Lawsにより，モデルパラメータ数の⼤きい⾔語モデルの開発が活発化 https://lifearchitect.ai/models/ GPT-3.5/4、Geminiのパラメータ数は正式公表されていない BERT 0.34B GPT-3 175B Google Google Amazon Baidu Inflection

Copyright 2022 NTT CORPORATION 31 Copyright 2024 NTT CORPORATION LLMの⾼いゼロショット性能
n アメリカの司法試験をLLM (GPT-4) がゼロショットで合格⽔準を上回る性能 https://www.iit.edu/news/gpt-4-passes-bar-exam

Copyright 2022 NTT CORPORATION 32 Copyright 2024 NTT CORPORATION LLMの⾼い推論能⼒
Kojima+, Large Language Models are Zero-Shot Reasoners, NeurIPS’22 n 思考⽅法を提⽰したり，思考を促すことで，推論能⼒が⾶躍的に向上

Copyright 2022 NTT CORPORATION 33 Copyright 2024 NTT CORPORATION Large
Vision Language Models (LVLM) の開発競争 Li+, Multimodal Foundation Models: From Specialists to General-Purpose Assistants, arXiv’23 Zhang+, InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output, arXiv’24 n 企業・アカデミア問わず，加速度的に開発が進められている l 7BクラスのLVLMにおいても，GPT-4VやGeminiなどと同等の性能が出ることが報告されている

Copyright 2022 NTT CORPORATION 34 Copyright 2024 NTT CORPORATION LVLMのモデル構造
n 画像エンコーダとLLMの橋渡しとなるアダプターを⽤いて画像をLLMに⼊⼒アダプター (Linear, Q-former, etc.) 画像エンコーダ (CLIP, DINO, etc.) LLM ⾺はどこで何をしていますか︖ 緑の草が⽣えている牧場と思われるところで草を⾷べています

Copyright 2022 NTT CORPORATION 35 Copyright 2024 NTT CORPORATION LVLMの学習⽅法:
① 事前学習アダプター (Linear, Q-former, etc.) 画像エンコーダ (CLIP, DINO, etc.) LLM ⾺が草を⾷べています n アダプターからLLMへのマッピングを⽬的とした事前学習を実施 l アダプタを学習対象とし，その他のパラメータは固定 l 質よりも量を重視し，主に画像キャプショニングデータを⽤いて，学習

Copyright 2022 NTT CORPORATION 36 Copyright 2024 NTT CORPORATION LVLMの学習⽅法:
② 視覚指⽰チューニングアダプター (Linear, Q-former, etc.) 画像エンコーダ (CLIP, DINO, etc.) n ⾃然⾔語の指⽰⽂，画像，その回答のデータでファインチューニング l アダプタとLLMを学習対象とし，画像エンコーダのパラメータは固定 l 量よりも質を重視し，幅広いタスクをカバーしたデータで学習 LLM ⾺はどこで何をしていますか︖ 緑の草が⽣えている牧場と思われるところで草を⾷べています

Copyright 2022 NTT CORPORATION 37 Copyright 2024 NTT CORPORATION Visual
Instruction Tuning [Liu+, NeurIPS’23] GPT-4 (テキスト⼊⼒) テキスト情報 + 複数の⼊出⼒ペアを例⽰⼊出⼒ペア n 画像をテキスト情報に変換し，テキスト版のGPT-4に例⽰することで指⽰チューニングデータを⾃動⽣成 Liu+, Visual Instruction Tuning, NeurIPS’23

Copyright 2022 NTT CORPORATION 38 Copyright 2024 NTT CORPORATION LLaVA
[Liu+, NeurIPS’23] n LLMと画像エンコーダの接続部 Projection 𝐖 を⽤いて，画像情報をLLMに伝搬 ① 事前学習: LLMと画像エンコーダのパラメータを固定し，𝐖のみCC3Mを⽤いて学習 ② 視覚指⽰チューニング: 画像エンコーダのパラメータを固定し，LLMと𝐖を視覚指⽰チューニングデータを⽤いて学習 CLIP Vicuna Linear

Copyright 2022 NTT CORPORATION 39 Copyright 2024 NTT CORPORATION BLIP-2
[Li+, ICML’23] n 画像表現を固定⻑のクエリベクトルに圧縮するQ-formerをCLIPライクに学習後， LLMに接続して，事前学習 l BLIP-2の場合，LLMのパラメータは固定 ① Q-formerの事前学習 ② Q-formerとLLMを接続して学習 Li+, BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, ICML’23

Copyright 2022 NTT CORPORATION 40 Copyright 2024 NTT CORPORATION 医療ドメイン:
LLaVA-Med [Li+, NeurIPS’23] n LLaVAと同様のプロセスでGPT-4を利⽤して，医療ドメインの視覚指⽰チューニングデータを構築し，LLaVAに対して8枚のA100を15時間かけて，追加学習 l 画像データはPubMedに投稿された論⽂に掲載されたFigure (PMC-15M) を使⽤ Li+, LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day, NeurIPS’23

Copyright 2022 NTT CORPORATION 41 Copyright 2024 NTT CORPORATION ビデオ・⾳声⼊⼒:
Video-LLaMA [Cheng+, arXiv’23] n BLIP-2に対して，時系列情報をエンコードするVideo/Audio Q-formerと各フレームの位置埋め込みを追加 Zhang+, Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding, arXiv’23

Copyright 2022 NTT CORPORATION 42 Copyright 2024 NTT CORPORATION ⾃動運転:
DriveGPT4 [Xu+, arXiv’24] n 運転時における周辺状況や，次フレームの⾞体の速度や⾓度をテキストデータとして予測するLVLM Xu+, DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model, arXiv’24

Copyright 2022 NTT CORPORATION 43 Copyright 2024 NTT CORPORATION ツールの活⽤:
LLaVA-plus [Liu+, arXiv’23] n 外部ツールを使⽤しながら，画像編集などを⾏うためのデータをGPT-4を⽤いて⾃動構築し，LLaVAを追加学習 Liu+, LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents, arXiv’23

実世界の⽂書を視覚的に（画像として）理解し読解するタスク課題①: ⽂書画像理解 VisualMRC [Tanaka&Nishida+, AAAI’21] PubLayNet [Xu+, ICDAR’19] Screen2Word [Wang+, UIST’21] Zhong+, PubLayNet: largest dataset ever for document layout analysis, ICADR’19 Tanaka+, VisualMRC: Machine Reading Comprehension on Document Images, AAAI’21 Wang+, Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning, UIST’21

Copyright 2022 NTT CORPORATION 46 Copyright 2024 NTT CORPORATION ⽂書画像理解の難しさ
(1/2) n ⾼解像度化への対応 l 既存の学習済み画像エンコーダは基本的に，低解像度 (224x224など) にしか対応していないため，⽂字などの細かな情報が潰れてしまう Q: What is the year of the budget? A: 1979

Copyright 2022 NTT CORPORATION 47 Copyright 2024 NTT CORPORATION ⽂書画像理解の難しさ
(2/2) n マルチモーダル (視覚，⾔語，レイアウト) 情報を理解する必要がある l 現在のLVLMの多くは，画像内のテキスト情報に引っ張られてしまう Wadhawan+, CONTEXTUAL: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models, arXiv’24

Copyright 2022 NTT CORPORATION 48 Copyright 2024 NTT CORPORATION ⽂書画像理解の実⽤性
⾃然⾔語指⽰による作業⾃動化専⾨調査レポート AI 業界紙論⽂医薬情報提供ページレポート A薬の症例について教えて⾒積書を帳票に⼊⼒してカスタマーサポート契約プランを変更したいのですが顧客データベーススーパーバイザ相談操作違約⾦がかかってしまいますがよろしいでしょうか… ⾒積書帳票 AIと⼈のリアルタイムペアワークその選択肢，エラーがありそうですよマニュアルマニュアルと違いが無いかチェックしてね n オフィスシーンで多⽤される⽂書を⼈間のように視覚から情報を理解できることで，オフィスDXに資する重要技術となり得る

Copyright 2022 NTT CORPORATION 49 Copyright 2024 NTT CORPORATION InstructDoc
[Tanaka+, AAAI’24] n ⽂書画像理解に関する30件のデータセット (12件のタスク) に指⽰⽂を⼈⼿付与 Multi-page QA w/ Multi-hop & Discrete & Visual Reasoning on Form on Slide deck on Figure Input: There are 4 categories for selection: “title”, “key”, “value”, and “other”. Please output the category corresponding to the text “CASE FORM”. Output: title Input: Respond to the question " What is the difference in the competition media percentage between East and the region with 12% of journalists? " with a short answer based on the content of the multi-page document. Answers contain either: - a span inside of the document - a list of spans inside of document (each span should be separated by ",") - not exist explicitly as a span of the document (the answer should be freely generated text) Output: 5% (11%-6%) Input: Please write a one-sentence description of what is presented in the figure. Output: Robustness of the generalization error with respect to a Gaussian corruption noise added to the input, and the model trained with the combination of input noise and Jacobian regularization is more robust. Key Information Extraction Captioning https://github.com/nttmdlab-nlp/InstructDoc

Copyright 2022 NTT CORPORATION 50 Copyright 2024 NTT CORPORATION InstructDr
[Tanaka+, AAAI’24] n アダプターに画像，⾔語，レイアウトを⼊⼒し，LLMに解釈できる形に変換 l レイアウトを表現するために，各単語のbboxの座標情報・サイズをFFNで変換し，⼊⼒ l OCR⼊⼒を前提としない，⾼解像度化は今後の課題 Tanaka+, InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions, AAAI’24 1 2 THE FIRST STEP TO THE BIG STORY Internal meeting decision Competition media Tip-off Communication agencies Primary research Others An event Social Network Online content North South East West 20% 9% 13% 16% 8% 8% 9% 13% 4% 26% 16% 16% 7% 2% 10% 10% 10% 3% 29% 6% 15% 20% 3% 3% 6% 18% 0% 20% 11% 14% 14% 5% 6% 8% 19% 3% SECTION 1 1 3 THE FIRST STEP TO THE BIG STORY Business & Corporate Lifestyle & Entertainment Science & Tech Sports 21% 10% 13% 12% 5% 13% 10% 13% 3% 25% 7% 14% 16% 8% 6% 10% 13% 1% 19% 11% 10% 17% 11% 11% 8% 9% 4% 19% 9% 13% 19% 8% 3% 13% 14% 2% Internal meeting decision Competition media Tip-off Communication agencies Primary research Others An event Social Network Online content SECTION 1 CR … CR … … features + Image Encoder Document-former FFN w/ mean pooling Large Language Model … Instruction … OCR … Instruction … Concatenated multi-page OCR … 11 … Spatial features Respond to the question " What is the percentage of Internal meeting decision? " with a short answer based on the content of the multi-page document. (….) Directly answer the question from the document with 1 to 3 words. Input multiple images Response Instruction + … t (b) Our InstructDr for a multi-page document Learnable tokens 𝒙𝟏 , 𝒚𝟏 𝒙𝟐 , 𝒚𝟐 FFN

Copyright 2022 NTT CORPORATION 51 Copyright 2024 NTT CORPORATION 評価実験:
Zero-Shotのパフォーマンス n 未知 (未学習) のタスクにおいて，タスクに特化した教師ありモデルやChatGPT などを上回る性能を達成

Copyright 2022 NTT CORPORATION 52 Copyright 2024 NTT CORPORATION tsuzumiの出⼒例:
ダイアグラムの理解

Copyright 2022 NTT CORPORATION 53 Copyright 2024 NTT CORPORATION tsuzumiの出⼒例:
伝票からの情報抽出

Copyright 2022 NTT CORPORATION 54 Copyright 2024 NTT CORPORATION ⾼解像度化:
UReader [Ye+, EMNLP’23 Findings] n 画像を複数のサブ画像に分割し，個別にエンコードすることで，⾼解像度対応 l 複数のサブ画像 (224x224) で構成されるグリッド候補 (Pre-defined Grids) を事前に⽤意．元画像のアスペクト⽐と解像度が近いグリッドを選択し，リサイズを実施 l 低解像度で学習した画像エンコーダ (e.g., CLIP) を再学習なしで利⽤できる Ye+, UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model, EMNLP’23 Findings

Copyright 2022 NTT CORPORATION 55 Copyright 2024 NTT CORPORATION ⾼解像度化の弊害
n サブ画像に跨った推論が苦⼿サブ画像の境界に跨ったカウントは誤りがち Xu+, LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images, arXiv’24 “How many circles are there in the image?”

Copyright 2022 NTT CORPORATION 56 Copyright 2024 NTT CORPORATION 課題②:
⾃動評価 n 画像を⾒なくても解けてまうタスクになっていないか︖ l テキストコーパスによって得られた知識と画像の知覚能⼒を分けて評価する必要がある Chen+, Are We on the Right Way for Evaluating Large Vision-Language Models?, arXiv’24

Copyright 2022 NTT CORPORATION 57 Copyright 2024 NTT CORPORATION 課題③:
バイアス n 事実に反した画像，⻄洋圏以外の⽂化に関する画像など，学習データにあまり含まれない内容は，ほとんど理解できない Cui+, Holistic Analysis of Hallucination in GPT-4V(ision): Bias and Interference Challenges, arXiv’23

Copyright 2022 NTT CORPORATION 58 Copyright 2024 NTT CORPORATION まとめ
n BERT，CLIP，LLMの活⽤によりVision&Languageにパラダイムシフトが起きた l 事前学習⾔語モデルにより⾔語理解能⼒が強化 l CLIPにより視覚認識能⼒が強化 l LLMにより推論能⼒が強化 n LVLMは，医療ドメインや⾃動運転など実応⽤への広がりが期待できる技術であり，加速度的に発展を遂げている n 課題 l ⽂書画像理解 l ⾃動評価 l バイアス

大規模言語モデルによる視覚・言語の融合/Large Vision Language Models

大規模言語モデルによる視覚・言語の融合/Large Vision Language Models

More Decks by Ryota Tanaka

Featured

Transcript