$30 off During Our Annual Pro Sale. View Details »

文書画像のデータ化における VLM活用 / Use of VLM in document im...

Sansan R&D
November 05, 2024

文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion

■イベント
LLMとVLMの実践的ビジネス活用
https://sansan.connpass.com/event/333009/

■発表者
技術本部 研究開発部 Automationグループ 石井 良

■研究開発職 採用情報
https://media.sansan-engineering.com/randd

■Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

November 05, 2024
Tweet

More Decks by Sansan R&D

Other Decks in Research

Transcript

  1. 石井 良 Sansan株式会社 技術本部 研究開発部 Automation グループ 研究員 新卒で大手SI企業に入社し、本社R&D部門でAI-OCRアルゴリズ ムの開発、知識グラフを用いた名寄せアルゴリズムの開発を主導。

    並行して顧客事業へのAI/ML導入支援・コンサルタント業務に従 事。 2022年1月にSansan株式会社に入社。 現在はR&D部門にてMLOpsを推進しつつ内製の生成AI "Viola" の 開発・展開に取り組む。 2
  2. Sansan 社では内製の VLM※ “Viola” を開発・リリースしており、 現在も名刺・請求書のデータ化を支援しています 視覚質問応答タスクを利用したデータ化は End-to-end な手法であり、 場合によっては他の手法よりも高精度なデータ化を実現します

    “Viola” を展開し、事業貢献していくためには様々な課題があります 興味を持っていただいたらぜひお気軽にご連絡ください はじめに 3 ※VLM = Vision Language Model
  3. Agenda - 内製の VLM※ “Viola” - データ化とは - データ化の課題 -

    解決策としての視覚質問応答 - 視覚質問応答のデメリット・懸念点 - Viola のアーキテクチャ - Viola の傾向 - ビジネス適用の現在地 - 課題 - おわりに 4 ※VLM = Vision Language Model
  4. 内製の VLM “Viola” Viola は様々な文書を学習した、内製の VLM(Vision Language Model)です。 既に複数リリースされており、名刺・請求書のデータ化を支援しています。 Viola

    名刺特化 Viola 請求書特化 Viola 契約書特化 Viola 文書A 文書C 文書B 文字認識に 特化した事前学習 データ化ルールを Fine-Tuning 素早く API として 組み込み シ ス テ ム 5 ※グレー領域(契約書)は 検証中です
  5. データ化とは(3/4) 2 文字検出と文字認識を同時に解く Text Spotting の研究も盛んです。 (文字検出と文字認識の結果を統合しているかもしれないですが) API で Text

    Spotting 相当の出力を提供するサービスがあります。 Text Spotting API + ルールの情報抽出で必要最小限の機能を作り易いです。 情報抽出 文字検出 & 文字認識 Xiang Zhang, Yongwen Su, Subarna Tripathi, and Zhuowen Tu. Text spotting transformers. In CVPR, 2022 8
  6. 1 あるいは 2 の方式は大抵のケースで高精度にデータ化ができます。 一方、より高い精度を追求する場合には、いくつかの課題があります。 データ化の課題 ※画像・データはダミーです 処理前半のミスが 尾を引く 文字検出に失敗すると

    文字認識も失敗します 処理が独立に 最適化されている 情報抽出に適した単位で 文字列が検出されるとは 限りません 仕様に合わせた 後処理が難しい 仕様に合わせるための 後処理がほぼ必須です 10
  7. 視覚質問応答によるデータ化は、課題を解決できる可能性がありそうです。 解決策としての視覚質問応答 ※画像・データはダミーです 処理前半のミスが 尾を引く 処理が独立に 最適化されている 仕様に合わせた 後処理が難しい 矩形を作らないため

    検出ミスは起きない データ化したい情報を 直接学習可能 単一タスクで解くため データ化に最適化可能 “TELは?” 01-2345-6789 “タイトルは?” “請求書” “TELは?” 987-654-3210 11
  8. ベースのアーキテクチャとして GIT[Wang et al., 2022] を採用しました。 まず画像中の文字を予測する Captioning で事前学習モデルを作ります。 その後、視覚質問応答タスクで

    Fine-Tuning する構成です。 Viola のアーキテクチャ Wang, J., Yang, Z., Hu, X., Li, L., Lin, K., Gan, Z., Liu, Z., Liu, C., and Wang, L. Git: A generative imageto -text transformer for vision and language. ArXiv, abs/2205.14100, 2022c 13
  9. 名刺・請求書をそれぞれ Fine-Tuning したモデルの傾向を評価しました。 うまくいった例 文字検出でミスが起きやすいケースは 改善される傾向がありました(請求書モデル) 空間的に離れている情報をスムーズに 出力できる傾向がありました(名刺) Viola の傾向

    ※画像・データはダミーです 14 “タイトルは?” “請求書” うまくいかなかった例 比較的細かい文字の認識を 誤る傾向がありました(名刺モデル) 一般的な語彙ではないと思われる 文字の認識を誤る傾向がありました(名刺モデル) “Email は?” “[email protected]” “住所は?” “123 Anywhere St., Ariy City” “部署 は?” 東京本店 研究開発部
  10. Viola をより幅広に展開して事業貢献するためには多くの課題があります。 課題 データ量が充分でない可能性が高い データを増やすほど精度が上がる傾向を確認 しているため、活用量を増やしたいです データ 適用までのリードタイムがやや長い 汎用性の高いモデルを作ることで検証を 高速化し、リードタイムを短くしたいです

    リードタイム 細かい文字列の認識精度はやや低い 構造上避け辛いため、アーキテクチャの変更 も含めて精度向上を目指す必要があります 手続き的作業がまだ多い 自動化・プロセス再設計により効率化の余地 が多く残っています トイル 精度 16
  11. 19