文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion

Sansan株式会社部署名前文書画像のデータ化における VLM 活用 Sansan技術本部研究開発部 Automation グループ
石井良 1

石井良 Sansan株式会社技術本部研究開発部 Automation グループ研究員新卒で大手SI企業に入社し、本社R&D部門でAI-OCRアルゴリズムの開発、知識グラフを用いた名寄せアルゴリズムの開発を主導。
並行して顧客事業へのAI/ML導入支援・コンサルタント業務に従事。 2022年1月にSansan株式会社に入社。現在はR&D部門にてMLOpsを推進しつつ内製の生成AI "Viola" の開発・展開に取り組む。 2

Sansan 社では内製の VLM※ “Viola” を開発・リリースしており、現在も名刺・請求書のデータ化を支援しています視覚質問応答タスクを利用したデータ化は End-to-end な手法であり、場合によっては他の手法よりも高精度なデータ化を実現します
“Viola” を展開し、事業貢献していくためには様々な課題があります興味を持っていただいたらぜひお気軽にご連絡くださいはじめに 3 ※VLM = Vision Language Model

Agenda - 内製の VLM※ “Viola” - データ化とは - データ化の課題 -
解決策としての視覚質問応答 - 視覚質問応答のデメリット・懸念点 - Viola のアーキテクチャ - Viola の傾向 - ビジネス適用の現在地 - 課題 - おわりに 4 ※VLM = Vision Language Model

内製の VLM “Viola” Viola は様々な文書を学習した、内製の VLM（Vision Language Model）です。既に複数リリースされており、名刺・請求書のデータ化を支援しています。 Viola
名刺特化 Viola 請求書特化 Viola 契約書特化 Viola 文書A 文書C 文書B 文字認識に特化した事前学習データ化ルールを Fine-Tuning 素早く API として組み込みシステム 5 ※グレー領域(契約書)は検証中です

データ化とは（１／４）文書画像から必要な情報を抽出する技術をデータ化と呼んでいます。要素技術的には、ざっくり 3 つの方式で実現できます。視覚質問応答情報抽出文字検出 & 文字認識
情報抽出文字認識文字検出 1 2 3 6

データ化とは（２／４） ※画像・データはダミーですまず文字列が記載された領域を検出し、検出した領域の文字を認識します。次に検出器と認識器の出力を組み合わせて情報抽出し、構造化します。それぞれのプロセスを作り込めるため、高い精度を狙うことができます。内製する場合はこの構成を取ることが多いと思われます。情報抽出文字認識文字検出 1
7

データ化とは（３／４） 2 文字検出と文字認識を同時に解く Text Spotting の研究も盛んです。（文字検出と文字認識の結果を統合しているかもしれないですが） API で Text
Spotting 相当の出力を提供するサービスがあります。 Text Spotting API + ルールの情報抽出で必要最小限の機能を作り易いです。情報抽出文字検出 & 文字認識 Xiang Zhang, Yongwen Su, Subarna Tripathi, and Zhuowen Tu. Text spotting transformers. In CVPR, 2022 8

画像と自然言語の質問を受け取り、自然言語で回答するタスクです。 VLM の研究活発化に伴い文書からの情報抽出の精度が向上してきています。先述の 2 手法と異なり、単一のタスクとしてデータ化が可能です。 GPT-4o や Gemini で試された方も多いかもしれません。
視覚質問応答データ化とは（４／４） ※画像・データはダミーです 3 “氏名は？” 視覚質問応答モデル水上弘太郎 9

1 あるいは 2 の方式は大抵のケースで高精度にデータ化ができます。一方、より高い精度を追求する場合には、いくつかの課題があります。データ化の課題 ※画像・データはダミーです処理前半のミスが尾を引く文字検出に失敗すると
文字認識も失敗します処理が独立に最適化されている情報抽出に適した単位で文字列が検出されるとは限りません仕様に合わせた後処理が難しい仕様に合わせるための後処理がほぼ必須です 10

視覚質問応答によるデータ化は、課題を解決できる可能性がありそうです。解決策としての視覚質問応答 ※画像・データはダミーです処理前半のミスが尾を引く処理が独立に最適化されている仕様に合わせた後処理が難しい矩形を作らないため
検出ミスは起きないデータ化したい情報を直接学習可能単一タスクで解くためデータ化に最適化可能 “TELは?” 01-2345-6789 “タイトルは?” “請求書” “TELは?” 987-654-3210 11

ただし、データ化という観点で見た時にはデメリットもあります。 • 細かい文字列に対する認識精度が低くなることが予想される ◦ 文字領域を特定して文字を読む構造と比べると劣る可能性が高い • ハルシネーション（画像中に存在しない文字の出力）は避けられない ◦ 生成系の手法を扱う場合、構造上回避が難しい解像度を大きくすると文字認識の性能が上がる・ハルシネーションが低減さ
れると報告する研究がいくつかありました。高解像度な文書画像と文字列を学習したモデルを内製すれば価値があると考え、検証を開始しました。視覚質問応答のデメリット・懸念 12

ベースのアーキテクチャとして GIT[Wang et al., 2022] を採用しました。まず画像中の文字を予測する Captioning で事前学習モデルを作ります。その後、視覚質問応答タスクで
Fine-Tuning する構成です。 Viola のアーキテクチャ Wang, J., Yang, Z., Hu, X., Li, L., Lin, K., Gan, Z., Liu, Z., Liu, C., and Wang, L. Git: A generative imageto -text transformer for vision and language. ArXiv, abs/2205.14100, 2022c 13

名刺・請求書をそれぞれ Fine-Tuning したモデルの傾向を評価しました。うまくいった例文字検出でミスが起きやすいケースは改善される傾向がありました（請求書モデル）空間的に離れている情報をスムーズに出力できる傾向がありました（名刺） Viola の傾向
※画像・データはダミーです 14 “タイトルは?” “請求書” うまくいかなかった例比較的細かい文字の認識を誤る傾向がありました（名刺モデル）一般的な語彙ではないと思われる文字の認識を誤る傾向がありました（名刺モデル） “Email は?” “[email protected]” “住所は?” “123 Anywhere St., Ariy City” “部署は?” 東京本店研究開発部

名刺や請求書のデータ化に関連するタスクで精度を検証しました。結果、いくつかのタスクで既存エンジンの精度を上回りました。投資対効果を得ることが出来ると確認できたためリリースしており、名刺・請求書のデータ化フロー内で現在 3 つのモデルが稼働しています。このアーキテクチャの汎用性・事業効果が認知されたため現在 4 つのデータ化に関連するタスクで新たに検証を開始しています。
これからも活用を拡大していく予定です。ビジネス適用の現在地 15

Viola をより幅広に展開して事業貢献するためには多くの課題があります。課題データ量が充分でない可能性が高いデータを増やすほど精度が上がる傾向を確認しているため、活用量を増やしたいですデータ適用までのリードタイムがやや長い汎用性の高いモデルを作ることで検証を高速化し、リードタイムを短くしたいです
リードタイム細かい文字列の認識精度はやや低い構造上避け辛いため、アーキテクチャの変更も含めて精度向上を目指す必要があります手続き的作業がまだ多い自動化・プロセス再設計により効率化の余地が多く残っていますトイル精度 16

Sansan 社では内製の VLM “Viola” を開発・リリースしており、現在も名刺・請求書のデータ化を支援しています視覚質問応答タスクを利用したデータ化は End-to-end な手法であり、場合によっては他の手法よりも高精度なデータ化を実現します
“Viola” を展開し、事業貢献していくためには様々な課題があります興味を持っていただいたらぜひお気軽にご連絡くださいおわりに 17

Sansan 技術本部募集ポジション紹介 https://media.sansan-engineering.com/ 18

文書画像のデータ化における VLM活用 / Use of VLM in document im...

文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion

Sansan R&D

More Decks by Sansan R&D

Other Decks in Research

Featured

Transcript

Sansan株式会社部署名前文書画像のデータ化における VLM 活用 Sansan技術本部研究開発部 Automation グループ

石井良 Sansan株式会社技術本部研究開発部 Automation グループ研究員新卒で大手SI企業に入社し、本社R&D部門でAI-OCRアルゴリズムの開発、知識グラフを用いた名寄せアルゴリズムの開発を主導。

Agenda - 内製の VLM※ “Viola” - データ化とは - データ化の課題 -

内製の VLM “Viola” Viola は様々な文書を学習した、内製の VLM（Vision Language Model）です。既に複数リリースされており、名刺・請求書のデータ化を支援しています。 Viola

データ化とは（１／４）文書画像から必要な情報を抽出する技術をデータ化と呼んでいます。要素技術的には、ざっくり 3 つの方式で実現できます。視覚質問応答情報抽出文字検出 & 文字認識

データ化とは（３／４） 2 文字検出と文字認識を同時に解く Text Spotting の研究も盛んです。（文字検出と文字認識の結果を統合しているかもしれないですが） API で Text

ベースのアーキテクチャとして GIT[Wang et al., 2022] を採用しました。まず画像中の文字を予測する Captioning で事前学習モデルを作ります。その後、視覚質問応答タスクで

Sansan 技術本部募集ポジション紹介 https://media.sansan-engineering.com/ 18

19