Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルによる文書画像理解の最新動向/Recent Trends in LLM-bas...

大規模言語モデルによる文書画像理解の最新動向/Recent Trends in LLM-based Visual Document Understanding

Ryota Tanaka

June 27, 2024
Tweet

More Decks by Ryota Tanaka

Other Decks in Technology

Transcript

  1. Copyright 2022 NTT CORPORATION 1 Copyright 2024 NTT CORPORATION n

    現所属: NTT⼈間情報研究所 研究員,東北⼤学 博⼠後期課程2年 n 研究分野: Vision&Language (特に⽂書画像理解) ⾃⼰紹介: ⽥中涼太 ⽂書画像理解 [AAAI’21, AAAI’23 , AAAI’24] Multi-page QA w/ Multi-hop & Discrete & Visual Reasoning on Form on Slide deck on Figure Input: There are 4 categories for selection: “title”, “key”, “value”, and “other”. Please output the category corresponding to the text “CASE FORM”. Output: title Input: Respond to the question " What is the difference in the competition media percentage between East and the region with 12% of journalists? " with a short answer based on the content of the multi-page document. Answers contain either: - a span inside of the document - a list of spans inside of document (each span should be separated by ",") - not exist explicitly as a span of the document (the answer should be freely generated text) Output: 5% (11%-6%) Input: Please write a one-sentence description of what is presented in the figure. Output: Robustness of the generalization error with respect to a Gaussian corruption noise added to the input, and the model trained with the combination of input noise and Jacobian regularization is more robust. Key Information Extraction Captioning LLM (tsuzumi) のマルチモーダル対応 https://group.ntt/jp/newsrelease/2024/04/12/240412b.html
  2. Copyright 2022 NTT CORPORATION 2 Copyright 2024 NTT CORPORATION n

    実世界の⽂書を視覚的に(画像として)理解し読解するタスク ⽂書画像理解 (VDU: Visual Document Understanding) VisualMRC [Tanaka&Nishida+, AAAI’21] PubLayNet [Xu+, ICDAR’19] Screen2Word [Wang+, UIST’21]
  3. Copyright 2022 NTT CORPORATION 3 Copyright 2024 NTT CORPORATION ⽂書画像理解がLLMのベンマークのデファクトに

    n ⽂書画像QAタスクを画像理解を測るLLMの主要なベンチマークに採⽤ https://www.anthropic.com/news/claude-3-5-sonnet Figureに対する 算術を伴うQA Diagramに対する 選択式QA ⼀般画像 (⽂書画像含む) に対する⼤学教養レベル の選択式QA Chartに対する ⾃由形式QA 産業⽂書に対する 抽出形式QA
  4. Copyright 2022 NTT CORPORATION 4 Copyright 2024 NTT CORPORATION LLM

    x ⽂書画像理解の驚くべき能⼒ (1/3) n ゼロショット性能 l 学習データに含まれない⾒たことのない指⽰や⽂書に対して,よしなに答えてくる OpenAI, GPT-4 Technical Report, arXiv’24
  5. Copyright 2022 NTT CORPORATION 5 Copyright 2024 NTT CORPORATION LLM

    x ⽂書画像理解の驚くべき能⼒ (2/3) n 汎⽤的な知識 l LLMの内部知識を補完することで,追加学習なしで専⾨書の読み取りが可能に 蒸散とは、植物が葉を通して⽔蒸気を放出するプロセスです。 この図では、樹⽊や植物が⽔蒸気を空気中に放出しています。 この図では、湖とダムの⽔が蒸発して⽔蒸気になっています。 蒸発とは、⽔が液体の状態から気体の状態に変化するプロセスです。 Yang+, The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), arXiv’23
  6. Copyright 2022 NTT CORPORATION 6 Copyright 2024 NTT CORPORATION LLM

    x ⽂書画像理解の驚くべき能⼒ (3/3) n エージェント能⼒ l PCやスマホ画⾯を理解し,計画,指⽰追従できることで,⼈とAIの協働が可能に Zhang+, AppAgent: Multimodal Agents as Smartphone Users, arXiv’23
  7. Copyright 2022 NTT CORPORATION 7 Copyright 2024 NTT CORPORATION ⽂書画像理解の実⽤性

    ⾃然⾔語指⽰による作業⾃動化 専⾨調査レポート AI 業界紙 論⽂ 医薬情報提供 ページ レポート A薬の症例に ついて教えて ⾒積書を 帳票に⼊⼒して カスタマーサポート 契約プランを変更 したいのですが 顧客 データベース スーパーバイザ 相談 操作 違約⾦が かかってしまいますが よろしいでしょうか… ⾒積書 帳票 AIと⼈のリアルタイムペアワーク その選択肢, エラーがありそうですよ マニュアル マニュアルと 違いが無いか チェックしてね n オフィスシーンで多⽤される⽂書を⼈間のように視覚から情報を理解できることで, オフィスDXに資する重要技術となり得る
  8. Copyright 2022 NTT CORPORATION 8 Copyright 2024 NTT CORPORATION どのように実現するのか︖

    n アーキテクチャ l パターン1: OCRを⼊⼒ l パターン2: 画像を⼊⼒ l パターン3: OCR + 画像 を⼊⼒ n 学習⽅法 l ステップ1: 事前学習 l ステップ2: 指⽰学習
  9. Copyright 2022 NTT CORPORATION 9 Copyright 2024 NTT CORPORATION どのように実現するのか︖

    n アーキテクチャ l パターン1: OCRを⼊⼒ l パターン2: 画像を⼊⼒ l パターン3: OCR + 画像 を⼊⼒ n 学習⽅法 l ステップ1: 事前学習 l ステップ2: 指⽰学習
  10. Copyright 2022 NTT CORPORATION 10 Copyright 2024 NTT CORPORATION パターン1:

    OCRを⼊⼒ LLM n OCRを実施し,出⼒結果をLLMに⼊⼒ OCR どのように⽂書画像中の テキストを表現するか︖ Research Question Net Total (MYR) について教えて $84.8です OCRテキスト
  11. Copyright 2022 NTT CORPORATION 11 Copyright 2024 NTT CORPORATION 代表例:

    LMDX [Perot+, arXiv’23],LATIN [Wang+, arxiv’23] n レイアウトを保持したテキストを構築 l ⻑距離コンテキストの理解,視覚情報 (図やアイコンなど) の理解が問題 Wang+, Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering , arXiv’23 Perot+, LMDX: Language Model-based Document Information Extraction and Localization, arXiv’23 座標情報をテキストとして直接的に表現 座標情報 LMDX [Perot+, arXiv’23] スペースと改⾏を駆使してレイアウトを表現 LATIN [Wang+, arXiv’23]
  12. Copyright 2022 NTT CORPORATION 12 Copyright 2024 NTT CORPORATION パターン2:

    画像を⼊⼒ アダプター (Linear, Q-former, etc.) 画像エンコーダ (CLIP, DINO, etc.) LLM n 画像を⼊⼒し,アダプターで変換後,LLMに⼊⼒ l (おそらく,GPT-4VやClaudeはこの⽅法を採⽤) どのように画像中の細かな情報 (⽂字など) をエンコードするか︖ Research Question Net Total (MYR) について教えて $84.8です
  13. Copyright 2022 NTT CORPORATION 13 Copyright 2024 NTT CORPORATION 代表例:

    UReader [Ye+, EMNLP’23 Findings] n 画像を複数のサブ画像に分割し,個別にエンコードすることで,⾼解像度対応 l 複数のサブ画像 (224x224) で構成されるグリッド候補 (Pre-defined Grids) を事前に⽤意. 元画像のアスペクト⽐と解像度が近いグリッドを選択し,リサイズを実施 l 低解像度で学習した画像エンコーダ (e.g., CLIP) を再学習なしで利⽤できる Ye+, UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model, EMNLP’23 Findings
  14. Copyright 2022 NTT CORPORATION 14 Copyright 2024 NTT CORPORATION パターン3:

    画像 + OCRを⼊⼒ n OCRを実施し,画像と合わせてLLMに⼊⼒ l OCRの処理コスト (時間,メモリ,値段) は⾼いが,最も性能が⾒込める構成 アダプター (Linear, Q-former, etc.) 画像エンコーダ (CLIP, DINO, etc.) LLM Net Total (MYR) について教えて $84.8です OCR OCRテキスト OCRテキスト + bbox Research Question どのようにマルチモーダル情報 (テキスト,画像,レイアウト)を LLMに伝えるか︖
  15. Copyright 2022 NTT CORPORATION 15 Copyright 2024 NTT CORPORATION 代表例:

    InstructDr [Tanaka+, AAAI’24] n アダプターに画像,⾔語,レイアウトを⼊⼒し,LLMに解釈できる形に変換 l レイアウトを表現するために,各単語のbboxの座標情報・サイズをFFNで変換し,⼊⼒ Tanaka+, InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions, AAAI’24 1 2 THE FIRST STEP TO THE BIG STORY Internal meeting decision Competition media Tip-off Communication agencies Primary research Others An event Social Network Online content North South East West 20% 9% 13% 16% 8% 8% 9% 13% 4% 26% 16% 16% 7% 2% 10% 10% 10% 3% 29% 6% 15% 20% 3% 3% 6% 18% 0% 20% 11% 14% 14% 5% 6% 8% 19% 3% SECTION 1 1 3 THE FIRST STEP TO THE BIG STORY Business & Corporate Lifestyle & Entertainment Science & Tech Sports 21% 10% 13% 12% 5% 13% 10% 13% 3% 25% 7% 14% 16% 8% 6% 10% 13% 1% 19% 11% 10% 17% 11% 11% 8% 9% 4% 19% 9% 13% 19% 8% 3% 13% 14% 2% Internal meeting decision Competition media Tip-off Communication agencies Primary research Others An event Social Network Online content SECTION 1 OCR … CR … … features + Image Encoder Document-former FFN w/ mean pooling Large Language Model … Instruction … OCR … Instruction … Concatenated multi-page OCR … 11 … Spatial features Respond to the question " What is the percentage of Internal meeting decision? " with a short answer based on the content of the multi-page document. (….) Directly answer the question from the document with 1 to 3 words. Input multiple images Response Instruction + … nt (b) Our InstructDr for a multi-page document Learnable tokens 𝒙𝟏 , 𝒚𝟏 𝒙𝟐, 𝒚𝟐 FFN
  16. Copyright 2022 NTT CORPORATION 16 Copyright 2024 NTT CORPORATION どのように実現するのか︖

    n アーキテクチャ l パターン1: OCRを⼊⼒ l パターン2: 画像を⼊⼒ l パターン3: OCR + 画像 を⼊⼒ n 学習⽅法 l ステップ1: 事前学習 l ステップ2: 指⽰学習
  17. Copyright 2022 NTT CORPORATION 17 Copyright 2024 NTT CORPORATION ステップ1:

    事前学習 n アダプターからLLMへのマッピングを⽬的とした事前学習を実施 l ⽂書画像理解に必要なgeneralなタスク (Parsingタスクなど) を扱う l アダプタのみを学習対象とし,その他のパラメータは固定にするケースが多い Chart Parsing Table Parsing Document Parsing Text Localization
  18. Copyright 2022 NTT CORPORATION 18 Copyright 2024 NTT CORPORATION 代表例:

    DocOwl 1.5 [Hu+, arXiv’24] n ⽂書画像を⼊⼒に,構造 (HTMLやMarkDownなど) を出⼒する事前学習を実施 Hu+, mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding, arXiv’24
  19. Copyright 2022 NTT CORPORATION 19 Copyright 2024 NTT CORPORATION ステップ2:

    指⽰学習 n ⾃然⾔語の指⽰⽂,⽂書画像,その回答のデータでファインチューニング l アダプターとLLMのパラメタを学習し,画像エンコーダは固定するケースが多い l LLMを学習する場合は,学習コストを抑えるために,LoRAが⼀般的に使⽤される アダプター (Linear, Q-former, etc.) 画像エンコーダ (CLIP, DINO, etc.) LLM VQA Information Extraction Image Captioning Natural Language Inference (LoRA)
  20. Copyright 2022 NTT CORPORATION 20 Copyright 2024 NTT CORPORATION 代表例:

    InstructDoc [Tanaka+, AAAI’24] n ⽂書画像理解に関する30件のデータセット (12件のタスク) に指⽰⽂を⼈⼿付与 l 本データセットを学習したLLMは,未知のタスクに対しても教師ありSOTAに匹敵する性能を達成 Multi-page QA w/ Multi-hop & Discrete & Visual Reasoning on Form on Slide deck on Figure Input: There are 4 categories for selection: “title”, “key”, “value”, and “other”. Please output the category corresponding to the text “CASE FORM”. Output: title Input: Respond to the question " What is the difference in the competition media percentage between East and the region with 12% of journalists? " with a short answer based on the content of the multi-page document. Answers contain either: - a span inside of the document - a list of spans inside of document (each span should be separated by ",") - not exist explicitly as a span of the document (the answer should be freely generated text) Output: 5% (11%-6%) Input: Please write a one-sentence description of what is presented in the figure. Output: Robustness of the generalization error with respect to a Gaussian corruption noise added to the input, and the model trained with the combination of input noise and Jacobian regularization is more robust. Key Information Extraction Captioning https://github.com/nttmdlab-nlp/InstructDoc
  21. Copyright 2022 NTT CORPORATION 21 Copyright 2024 NTT CORPORATION (参考)

    公開済みの代表的な学習データセット データセット ⾔語 ⽤途 タスク数 データサイズ 作成⽅法 IIT-CDIP [Herlay+, ICDAR’15] 英語 事前学習 1 (OCR) 6.5M タバコ産業のドキュメ ントライブラリ CCpdf [Turski+, ICDAR’23] ⽇本語含む 11⾔語 事前学習 1 (OCR) 1.1M (0.13Mが⽇本語) Common Crawl LLaVAR [Zhang+, arXiv’24] 英語 指⽰学習 1 (QA) 20K GPT-4で⾃動⽣成 DocReason25K [Hu+, arXiv’24] 英語 指⽰学習 1 (QA) 25K データマージ InstructDoc [Tanaka+, AAAI’24] 英語 指⽰学習 12 5.9M データマージ + ⼈⼿ で指⽰を付与 JDocQA [Onami+, LREC’24] ⽇本語 指⽰学習 1 (QA) 11.6K ⽇本語pdfに対して ⼈⼿でQAを付与
  22. Copyright 2022 NTT CORPORATION 22 Copyright 2024 NTT CORPORATION 課題:

    画像内のコンテキスト理解 (1/2) n 画像内のテキスト情報に引っ張られすぎて,周辺の情報を活⽤できない l 画像内のテキストをそのまま出⼒するOCRタスクがバイアスを⽣んでいる︖ Wadhawan+, CONTEXTUAL: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models, arXiv’24
  23. Copyright 2022 NTT CORPORATION 23 Copyright 2024 NTT CORPORATION 課題:

    評価 (2/2) n 画像を⾒なくても解けてまうタスクになっていないか︖ l テキストコーパスによって得られた知識と画像の知覚能⼒を分けて評価する必要がある Chen+, Are We on the Right Way for Evaluating Large Vision-Language Models?, arXiv’24
  24. Copyright 2022 NTT CORPORATION 24 Copyright 2024 NTT CORPORATION その他:

    報告されている発⾒・知⾒ n 画像を伴う指⽰学習を⾏うと,テキストに関する指⽰追従能⼒が低下する [Shiono+, NAACL’24 SRW], [Zhang+, arXiv’24] n 指⽰学習で扱うタスク数がゼロショット性能に⼤きく寄与する [Tanaka+, AAAI’24] n 画像の解像度とLLMに何を使うかが性能に最も影響する [McKinzie+, arXiv’24], [Laurençon+, arxiv’24] n テキストデータで指⽰学習を⾏ったLLMを使うかどうかで,画像理解タスクの性能に影響が 出ない [Karamcheti+, ICML’24] n 画像エンコーダにおいても,モデルサイズとデータ量が重要 [Li+, blog’24] n 事前学習タスクが異なる複数の画像特徴を同時⼊⼒することで,性能向上 [Tong+, CVPR’24] Zhang+, Wings: Learning Multimodal LLMs without Text-only Forgetting, arXiv’24 Shiono+, Instruction-Following Evaluation for Large Vision-Language Models, NAACL’24 SRW McKinzie+, MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training, arXiv’24 Laurençon+, What matters when building vision-language models?, arXiv’24 Karamcheti +, Investigating the Design Space of Visually-Conditioned Language Models, ICML’24 Li+, LLaVA-NeXT: What Else Influences Visual Instruction Tuning Beyond Data?, blog’24 Tong+, Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs, CVPR’24
  25. Copyright 2022 NTT CORPORATION 25 Copyright 2024 NTT CORPORATION まとめ

    n ⽂書画像理解とは,⽂書を「画像」として⾒做して理解するタスク n 実現⽅法として,アーキテクチャと学習⽅法について紹介 l 性能⾯では,OCRと画像を⼊⼒とするアーキテクチャが最も有望な構成 l 事前学習でアダプタとLLMのマッピングを学習後,指⽰学習を実施 n 課題 l 画像内のコンテキスト理解 l 知識と画像理解能⼒を切り分けた評価