VLMを用いた表の質問応答:画像とテキスト入力の性能比較-

VLMを用いた表の質問応答 -画像とテキスト入力の性能比較- 2025.04.24 ストックマーク株式会社 Researcher 會田勇斗

非構造データからRAGのためのデータを自動的に作り出すレイアウト解析、VLMなどの技術で実現ストックマークのプロダクト : SAT 2 Indexing embedding レイアウト解析
図・表関係抽出チャンキング Knowledge Graph 表の構造化今回は表構造とLLM, VLMに注目

回答 LLM 通常のLLM 質問 (テキスト情報) User VLM 回答 LLM Document
Image Encoder 画像（視覚情報）質問 (テキスト情報) User

表：テキスト、画像で表現可能 4 HTML (Markdown, csv..) 画像 <table><tr><td colspan="2">回次</td><td>第 65期</td><td>第66期</td><td>第67期 </td><td>第68期</td><td>第69期
</td></tr><tr><td colspan="2">決算年月 </td><td>2016年１月</td><td>2017年１月 </td><td>2018年１月</td><td>2019年１月 </td><td>2020年１月</td></tr><tr><td>売上高 </td><td>（百万円） </td><td>1,148,631</td><td>1,180,901</td><t d>1,169,671</td><td>1,172,519</td><td>1,20 2,918</td></tr><tr><td>…</table> どちらの方がLLM(VLM)にとって読みやすい？

去年の年末に参加していたNTCIR-U4というTableQAのコンペデータを活用 HTMLの表と、QAのペアが与えられている -> レンダリングした画像、HTMLでVLMの性能比較表の日本語質問応答(QA)タスクの性能評価 5 Question : 2019年時点における「原材料及び貯蔵品」は？ Answer
: 9,137 (固有名詞などオリジナルの質問を一部改変) 元のQAは難しめなので、Table中の値を抜き出すタスクに変換 (500件サンプリング)

このタスクにおいては、HTMLの方がLLMにとって回答しやすい HTMLの表が使える場合はHTMLの方が良さそう結果 6 モデル画像 HTML GPT-4o 0.57 0.712
Qwen2.5-VL-72B 0.658 0.696 Gemini 2.5 Pro 0.608 0.654 数字は正解率

7 しかし、RAGのユースケースにおける表は多くの場合PDF, パワポ, スクリーンショット, スキャン画像などの非構造化データ →HTMLへの変換機能の精度に依存表画像からHTMLへの変換だけでもLTテーマにできそうなくらい課題山盛り

8 回答 LLM Document 回答 LLM Image Encoder 画像（視覚情報） Document
レイアウト TEXT + Image Encoder 画像（視覚情報） VLM 質問 User 質問 User ストックマークのドキュメント読解基盤モデル

PDFに文字が埋め込まれている場合や、光学文字認識(OCR)により取得可能テキストの内容や位置情報の抽出は、HTML化のように厳密な構造解析が不要画像とHTMLの中間的な情報を活用する表内のテキスト+位置情報 9 テキスト: IFRS移行日位置情報 : 赤い箱の座標
参考,言語処理学会2025:https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q3-13.pdf

テキストと位置情報を追加で入力したフォーマットでFine-tuningすることで、 HTMLと画像の性能差を縮めることができる ※より詳細な分析は論文としてarxivにアップロード予定結果: テキスト+位置の活用 10 モデル画像 HTML 画像+テキスト+位置
GPT-4o 0.57 0.712 0.562 Qwen2.5-VL-72B 0.658 0.696 0.648 Fine-tuned VLM (7B) ※TableQAの学習データでFine-tuning 0.872 0.962 0.944 数字は正解率

• 表は画像より(利用可能であれば)HTMLでLLMに入力した方が良さそう • 画像中のテキストとその位置情報を入力、学習すると、HTMLの性能にかなり近づく • ストックマークでは、ドキュメント解析のためのVLMの開発や、PDFなどの非構造化ドキュメントの構造化に力を入れているまとめ 11

Stockmarkでは一緒にプロダクトと組織を成長させていただける方を広く募集しています！ https://herp.careers/v1/stockmark

VLMを用いた表の質問応答:画像とテキスト入力の性能比較-

VLMを用いた表の質問応答:画像とテキスト入力の性能比較-

eida

More Decks by eida

Featured

Transcript

VLMを用いた表の質問応答 -画像とテキスト入力の性能比較- 2025.04.24 ストックマーク株式会社 Researcher 會田勇斗

非構造データからRAGのためのデータを自動的に作り出すレイアウト解析、VLMなどの技術で実現ストックマークのプロダクト : SAT 2 Indexing embedding レイアウト解析

回答 LLM 通常のLLM 質問 (テキスト情報) User VLM 回答 LLM Document

表：テキスト、画像で表現可能 4 HTML (Markdown, csv..) 画像 <table><tr><td colspan="2">回次</td><td>第 65期</td><td>第66期</td><td>第67期 </td><td>第68期</td><td>第69期

このタスクにおいては、HTMLの方がLLMにとって回答しやすい HTMLの表が使える場合はHTMLの方が良さそう結果 6 モデル画像 HTML GPT-4o 0.57 0.712

8 回答 LLM Document 回答 LLM Image Encoder 画像（視覚情報） Document

Stockmarkでは一緒にプロダクトと組織を成長させていただける方を広く募集しています！ https://herp.careers/v1/stockmark