Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VLMを用いた表の質問応答:画像とテキスト入力の性能比較-

Avatar for eida eida
April 24, 2025
380

 VLMを用いた表の質問応答:画像とテキスト入力の性能比較-

「マルチモーダル・LLM・VLM・RAGの実践」機械学習エンジニアのためのLT & MeetUp
https://stockmark.connpass.com/event/350420/
イベントの登壇資料

Avatar for eida

eida

April 24, 2025
Tweet

Transcript

  1. 回答 LLM 通常のLLM 質問 (テキスト情報) User VLM 回答 LLM Document

    Image Encoder 画像(視覚情報) 質問 (テキスト情報) User
  2. 表:テキスト、画像で表現可能 4 HTML (Markdown, csv..) 画像 <table><tr><td colspan="2">回次</td><td>第 65期</td><td>第66期</td><td>第67期 </td><td>第68期</td><td>第69期

    </td></tr><tr><td colspan="2">決算年月 </td><td>2016年1月</td><td>2017年1月 </td><td>2018年1月</td><td>2019年1月 </td><td>2020年1月</td></tr><tr><td>売上高 </td><td>(百万円) </td><td>1,148,631</td><td>1,180,901</td><t d>1,169,671</td><td>1,172,519</td><td>1,20 2,918</td></tr><tr><td>…</table> どちらの方がLLM(VLM)にとって読みやすい?
  3. 8 回答 LLM Document 回答 LLM Image Encoder 画像(視覚情報) Document

    レイ アウト TEXT + Image Encoder 画像(視覚情報) VLM 質問 User 質問 User ストックマークの ドキュメント読解基盤モデル