言語処理学会第32回年次大会(NLP2026)「日本語言語資源の構築と利用性の向上」ワークショップでの発表資料です。
概要
BizDocVQA は実世界の日本語レシート116枚に対し624件のQAペアと回答根拠領域(BBox)を付与した、根拠付きVQAデータセットです。Amazon Bedrock上の8モデルをテキスト精度(ANLS)と空間的根拠(IoU)の2軸で評価した結果、最高精度のモデルでも正答の約57%が誤った空間領域を参照しており、回答が画像内に存在しないケースでは最大99%がハルシネーションを起こすことが分かりました。存在しない番号のパターン生成やフィールド間の誤帰属など、実務上のリスクとなる応答パターンも類型化しています。データセットとアノテーションツールは以下で公開しています。
データセット: https://huggingface.co/datasets/icoxfog417/biz-doc-vqa
アノテーションツール: https://github.com/icoxfog417/business-ocr-annotator