2020~ NTT⼈間情報研究所 研究員 n 2023~ 東北⼤学 社会⼈博⼠ n 研究分野: Vision & Language l 視覚的に⽂書を読み解く「⽂書画像理解」を中⼼に取り組んでいます ⾃⼰紹介: ⽥中涼太 ⽂書画像理解 [AAAI’21, AAAI’23 , AAAI’24] Multi-page QA w/ Multi-hop & Discrete & Visual Reasoning on Form on Slide deck on Figure Input: There are 4 categories for selection: “title”, “key”, “value”, and “other”. Please output the category corresponding to the text “CASE FORM”. Output: title Input: Respond to the question " What is the difference in the competition media percentage between East and the region with 12% of journalists? " with a short answer based on the content of the multi-page document. Answers contain either: - a span inside of the document - a list of spans inside of document (each span should be separated by ",") - not exist explicitly as a span of the document (the answer should be freely generated text) Output: 5% (11%-6%) Input: Please write a one-sentence description of what is presented in the figure. Output: Robustness of the generalization error with respect to a Gaussian corruption noise added to the input, and the model trained with the combination of input noise and Jacobian regularization is more robust. Key Information Extraction Captioning LLM (tsuzumi) のマルチモーダル対応 https://group.ntt/jp/newsrelease/2024/04/12/240412b.html
[Shen+, ICLR’22] n 事前学習済みのCLIP Vision EncoderをV&Lモデルに再利⽤ l 画像分類や物体検出タスクで事前学習を⾏なったResNetよりも, CLIPは視覚的特徴をより 正確に捉えることが可能 CLIP事前学習 > 物体検出 > 画像分類 Shen+, How Much Can CLIP Benefit Vision-and-Language Tasks?, ICLR’22
(1/2) DALL-E 2 [Ramesh+, arxiv’22] ViLD [Gu+, ICLR’22] CLIPと拡散モデルによるテキストからの画像⽣成 Toy duck Green toy Blue toy CLIPの画像表現を蒸留することで,任意クラスに対して 物体検出が可能 物体検出 結果 CLIPの画像 エンコーダ の出⼒に近づける Toy duck 画像⽣成 Open-Vocabulary物体検出 Remesh+, Hierarchical Text-Conditional Image Generation with CLIP Latents, arXiv’22 Gu+, Open-vocabulary Object Detection via Vision and Language Knowledge Distillation, ICLR’22
(LLM: Large Language Models) n ⼤規模なコーパスで訓練された⼤規模なパラメータを持つ⾔語モデル l LLama3の場合,70Bモデルのサイズを,15兆トークンのコーパスで,6.4MGPU時間の学習 l (ただし,どれだけ⼤規模にすればLLMと呼べるかコンセンサスは取れていない.) ⼤規模⾔語 モデル (ベース) ⼤規模⾔語 モデル 汎⽤ ニューラル ネット構造 ⼤規模コーパスで 事前学習 指⽰チューニング (+ アライメント)
Laws [Kaplan+, arXiv’20] n ⾔語モデルの性能は経験的に、 「訓練に使われた計算量」 「データサイズ 「モデルサイズ」 の3つの要素に対してスケーリングすることを⽰した l スケーリングの限界が⽰されてない Kaplan+, Scaling Laws for Neural Language Models, arXiv’20
Vision Language Models (LVLM) の開発競争 Li+, Multimodal Foundation Models: From Specialists to General-Purpose Assistants, arXiv’23 Zhang+, InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output, arXiv’24 n 企業・アカデミア問わず,加速度的に開発が進められている l 7BクラスのLVLMにおいても,GPT-4VやGeminiなどと同等の性能が出ることが報告されている
① 事前学習 アダプター (Linear, Q-former, etc.) 画像エンコーダ (CLIP, DINO, etc.) LLM ⾺が草を⾷べています n アダプターからLLMへのマッピングを⽬的とした事前学習を実施 l アダプタを学習対象とし,その他のパラメータは固定 l 質よりも量を重視し,主に画像キャプショニングデータを⽤いて,学習
[Liu+, NeurIPS’23] n LLMと画像エンコーダの接続部 Projection 𝐖 を⽤いて,画像情報をLLMに伝搬 ① 事前学習: LLMと画像エンコーダのパラメータを固定し,𝐖のみCC3Mを⽤いて学習 ② 視覚指⽰チューニング: 画像エンコーダのパラメータを固定し,LLMと𝐖を視覚指⽰チュー ニングデータを⽤いて学習 CLIP Vicuna Linear
[Li+, ICML’23] n 画像表現を固定⻑のクエリベクトルに圧縮するQ-formerをCLIPライクに学習後, LLMに接続して,事前学習 l BLIP-2の場合,LLMのパラメータは固定 ① Q-formerの事前学習 ② Q-formerとLLMを接続して学習 Li+, BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, ICML’23
LLaVA-Med [Li+, NeurIPS’23] n LLaVAと同様のプロセスでGPT-4を利⽤して,医療ドメインの視覚指⽰チューニ ングデータを構築し,LLaVAに対して8枚のA100を15時間かけて,追加学習 l 画像データはPubMedに投稿された論⽂に掲載されたFigure (PMC-15M) を使⽤ Li+, LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day, NeurIPS’23
Video-LLaMA [Cheng+, arXiv’23] n BLIP-2に対して,時系列情報をエンコードするVideo/Audio Q-formerと各フレー ムの位置埋め込みを追加 Zhang+, Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding, arXiv’23
DriveGPT4 [Xu+, arXiv’24] n 運転時における周辺状況や,次フレームの⾞体の速度や⾓度をテキストデータ として予測するLVLM Xu+, DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model, arXiv’24
LLaVA-plus [Liu+, arXiv’23] n 外部ツールを使⽤しながら,画像編集などを⾏うためのデータをGPT-4を⽤い て⾃動構築し,LLaVAを追加学習 Liu+, LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents, arXiv’23
(2/2) n マルチモーダル (視覚,⾔語,レイアウト) 情報を理解する必要がある l 現在のLVLMの多くは,画像内のテキスト情報に引っ張られてしまう Wadhawan+, CONTEXTUAL: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models, arXiv’24
[Tanaka+, AAAI’24] n ⽂書画像理解に関する30件のデータセット (12件のタスク) に指⽰⽂を⼈⼿付与 Multi-page QA w/ Multi-hop & Discrete & Visual Reasoning on Form on Slide deck on Figure Input: There are 4 categories for selection: “title”, “key”, “value”, and “other”. Please output the category corresponding to the text “CASE FORM”. Output: title Input: Respond to the question " What is the difference in the competition media percentage between East and the region with 12% of journalists? " with a short answer based on the content of the multi-page document. Answers contain either: - a span inside of the document - a list of spans inside of document (each span should be separated by ",") - not exist explicitly as a span of the document (the answer should be freely generated text) Output: 5% (11%-6%) Input: Please write a one-sentence description of what is presented in the figure. Output: Robustness of the generalization error with respect to a Gaussian corruption noise added to the input, and the model trained with the combination of input noise and Jacobian regularization is more robust. Key Information Extraction Captioning https://github.com/nttmdlab-nlp/InstructDoc
[Tanaka+, AAAI’24] n アダプターに画像,⾔語,レイアウトを⼊⼒し,LLMに解釈できる形に変換 l レイアウトを表現するために,各単語のbboxの座標情報・サイズをFFNで変換し,⼊⼒ l OCR⼊⼒を前提としない,⾼解像度化は今後の課題 Tanaka+, InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions, AAAI’24 1 2 THE FIRST STEP TO THE BIG STORY Internal meeting decision Competition media Tip-off Communication agencies Primary research Others An event Social Network Online content North South East West 20% 9% 13% 16% 8% 8% 9% 13% 4% 26% 16% 16% 7% 2% 10% 10% 10% 3% 29% 6% 15% 20% 3% 3% 6% 18% 0% 20% 11% 14% 14% 5% 6% 8% 19% 3% SECTION 1 1 3 THE FIRST STEP TO THE BIG STORY Business & Corporate Lifestyle & Entertainment Science & Tech Sports 21% 10% 13% 12% 5% 13% 10% 13% 3% 25% 7% 14% 16% 8% 6% 10% 13% 1% 19% 11% 10% 17% 11% 11% 8% 9% 4% 19% 9% 13% 19% 8% 3% 13% 14% 2% Internal meeting decision Competition media Tip-off Communication agencies Primary research Others An event Social Network Online content SECTION 1 CR … CR … … features + Image Encoder Document-former FFN w/ mean pooling Large Language Model … Instruction … OCR … Instruction … Concatenated multi-page OCR … 11 … Spatial features Respond to the question " What is the percentage of Internal meeting decision? " with a short answer based on the content of the multi-page document. (….) Directly answer the question from the document with 1 to 3 words. Input multiple images Response Instruction + … t (b) Our InstructDr for a multi-page document Learnable tokens 𝒙𝟏 , 𝒚𝟏 𝒙𝟐 , 𝒚𝟐 FFN
UReader [Ye+, EMNLP’23 Findings] n 画像を複数のサブ画像に分割し,個別にエンコードすることで,⾼解像度対応 l 複数のサブ画像 (224x224) で構成されるグリッド候補 (Pre-defined Grids) を事前に⽤意. 元画像のアスペクト⽐と解像度が近いグリッドを選択し,リサイズを実施 l 低解像度で学習した画像エンコーダ (e.g., CLIP) を再学習なしで利⽤できる Ye+, UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model, EMNLP’23 Findings
n サブ画像に跨った推論が苦⼿ サブ画像の境界に 跨ったカウントは 誤りがち Xu+, LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images, arXiv’24 “How many circles are there in the image?”
⾃動評価 n 画像を⾒なくても解けてまうタスクになっていないか︖ l テキストコーパスによって得られた知識と画像の知覚能⼒を分けて評価する必要がある Chen+, Are We on the Right Way for Evaluating Large Vision-Language Models?, arXiv’24
バイアス n 事実に反した画像,⻄洋圏以外の⽂化に関する画像など,学習データにあまり 含まれない内容は,ほとんど理解できない Cui+, Holistic Analysis of Hallucination in GPT-4V(ision): Bias and Interference Challenges, arXiv’23
n BERT,CLIP,LLMの活⽤によりVision&Languageにパラダイムシフトが起きた l 事前学習⾔語モデルにより⾔語理解能⼒が強化 l CLIPにより視覚認識能⼒が強化 l LLMにより推論能⼒が強化 n LVLMは,医療ドメインや⾃動運転など実応⽤への広がりが期待できる技術で あり,加速度的に発展を遂げている n 課題 l ⽂書画像理解 l ⾃動評価 l バイアス