ビジネス文書に特化した基盤モデル開発 / SaaSxML_Session_2

Sansan株式会社技術本部研究開発部シニアリサーチャー内⽥奏ビジネス⽂書に特化した基盤モデル開発 Sansan&CADDiが語るSaaS R&DとML最前線

写真が⼊ります内⽥奏 Sansan株式会社技術本部研究開発部シニアリサーチャー東京電機⼤学⼤学院⼯学研究科修⼠課程修了。深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。 2020年Sansan株式会社に新卒⼊社。
名刺画像の品質およびOCR精度の改善に関する研究開発に従事。 1

1. 基盤モデル開発に⾄る背景 i. Sansanにおける⽂書データ化 ii. 内製OCRエンジン開発を通して⾒えた課題 2. ビジネス⽂書に特化した基盤モデル「Viola」 i. コンセプト
ii. モデル構造・推論の⼯夫 iii. 価値提供の仕組み 3. 今後の展望 i. 視覚接地した⽂書特化基盤モデル「Cello」の開発⽬次 2

基盤モデル開発に⾄る背景

正確なデータ化※をベースとした業務効率化プロダクトを提供 - ビジネスデータに必要な精度は⾮常に⾼い > 例: メールアドレスは1⽂字間違えただけで送信できない。メールアドレスは平均20⽂字程度であり、⽂字単位精度99%でも5件に1件は利⽤不可。 - ⼈と機械を組み合わせたデータ化によって精度を保証背景:
Sansanにおける⽂書データ化 ① ※⽂書画像から必要な項⽬情報をKey-Value形式で抽出・構造化すること 4

背景: Sansanにおける⽂書データ化 ② ⼈と機械を組み合わせたデータ化システム - 次の観点を数値化しながら運⽤・改善 > Quality : データ化精度
> Cost : データ化コスト > Delivery : 納品時間 > Security : セキュリティ - R&DはML技術による⾃動化でQCDS改善に貢献 > 例: 名刺特化OCRエンジン「NineOCR」の開発名刺データ化システム「GEES」 5

99.9%の壁 - NineOCRをベースにEightのデータ化を完全⾃動化（2023年） > Sansanの精度要件は99.9%、Eightの要件よりもう1段⾼い - Sansanの完全⾃動化までに残された課題: 後処理 > OCR（検出+認識）結果をKey-Value形式に変換する部分
> サービス仕様に沿って後処理を完全再現するのはほぼ不可能 - GEESの歴史は⻑く、所管は別部署であり、ソフトウェアスタックも異なる - プロダクト⽅針・顧客要望によって常に変化する背景: OCRエンジン開発を通して⾒えた課題 ① 6

多プロダクト展開の難しさ - OCRを「直接」学習できるデータはあまり残っていない > OCRの学習には、テキスト矩形と⽣⽂字列が必要 > サービスに必要なのは構造化&正規化されたデータ化結果（≠学習データ） - 名刺でOCRモデルを作れたのはラッキー >
開発当時の状況 - ⼈⼒でデータ化していた時代の矩形が残っていた - 会社が成⻑して⻑期プロジェクトが実⾏可能になった etc. > 他のプロダクトでは状況が異なる - 汎⽤OCR結果からNLP的な⼿法で抽出するのが主流 & 成⻑途上背景: OCRエンジン開発を通して⾒えた課題 ② 7

ビジネス⽂書特化基盤モデル「Viola」

視覚質問応答（VQA）⽅式の情報抽出によりE2Eなデータ化を実現 - 事前学習: ⽂書画像と汎⽤OCR結果のペアを学習して⽂字認識能⼒を獲得 > 多プロダクト展開可能を念頭において設計 - ファインチューニング: 納品データを学習してデータ化ルールを習得 >
納品データを直接学習するため後処理不要 Viola: コンセプト Violaによる情報抽出イメージ Violaの学習戦略名前の由来（諸説あり） - Sansanの⻘と⾚を混ぜると紫（イタリア語で Viola） - Violin が奏でる主旋律（プロダクト）を下から⽀える Viola - Viola-Jones法のように long-standing なエンジンになってほしい etc. 9

GIT [1] ベースのアーキテクチャを採⽤ - 採⽤した理由 > 検証段階で⼗分に性能が出た > Hugging Face
Transformers [2] にも実装があり参考にできた - シンプルな構成であるため、推論バックエンドの変更に頑健 > 例1: PyTorchに同梱されているFlash Attention 2 [3] への変更が容易 > 例2: ONNX Runtime [4] やTensorRT [5] への変換が容易 Viola: モデル構造 [1] J. Wang et al., “GIT: A Generative Image-to-text Transformer for Vision and Language,” Transactions on Machine Learning Research, 2022. [2] T. Wolf et al., “HuggingFace’s transformers: State-of-the-art natural language processing,” arXiv preprint arXiv:1910.03771, 2019. [3] T. Dao, “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning,” in The Twelfth International Conference on Learning Representations, 2023. [4] https://onnxruntime.ai/ [5] https://developer.nvidia.com/tensorrt 10

同時多項⽬推論 - 単項⽬推論: 項⽬間の関係性を明⽰的にモデリング不可能 - 多項⽬推論: ⽂脈として⼊⼒することで明⽰的にモデリング可能 - 性能向上を確認し、NLP2025にて発表 [6]
Viola: 推論の⼯夫 ① 単項⽬推論と多項⽬推論の⽐較 [6] Mengsay Loem, 保坂⼤樹, “視覚的質問応答による⽂書情報抽出における同時多項⽬推論,” ⾔語処理学会第31回年次⼤会, 2025. 11

複数ページ推論 - 請求書や契約書はデータ化項⽬が複数ページにまたがることが多い - Temporal Embeddingを導⼊して複数ページ推論可能とした - Violaの利⽤範囲を拡⼤し、性能に関する分析はJSAI2025にて発表済 [7] Viola:
推論の⼯夫 ② [7] ⼭内敏嗣, “GIT を活⽤した複数ページ契約書画像からの情報抽出,” ⼈⼯知能学会全国⼤会（第39回）, 2025. 複数ページ推論の概略図 12

主要プロダクト向けに10件以上のモデルが稼働中 - API実装・CDパイプラインをViolaレポジトリに集約してリリースを容易化 > APIはVQA部分のみ責任を持ち、クライアントでI/Fを変換（Adapterパターン） > 社内基盤・マネージドサービスへのCDパイプラインをGitHub Actionsに集約 - データ収集から最短2週間で本番環境へのリリースが可能
Viola: 価値提供 Viola適⽤の進展来期年間約1億円のコスト削減⾒込み (2025年5⽉期通期決算資料より) 13

今後の展望

原理的に弱い部分がいくつかある - ⼩さい⽂字の認識が⽐較的苦⼿ > ⽂書画像は画像全体に対して抽出対象のスケールが⼩さい > 画像全体を考慮できる点が強みであるため、部分的に認識するのは悪⼿ > ⼊⼒解像度を上げれば解決されるが、GPUメモリには上限がある -
補正の信頼性 > 単体で99.9%を達成しない限り別エンジンでの補正が必要 > Violaは中間情報を出⼒しないため、データ化項⽬の字⾯を⽐較して補正 - 「実は違う場所のテキストを⾒てました」があり得る > OCRベースエンジン間の補正は位置でマッチングするため信頼性が⾼い今後の展望: Violaに対する課題感 15

ビジネス⽂書特化基盤モデル × Visual Grounding - Violaに判断根拠となるテキスト位置を出⼒する機能を追加 > 根拠領域を再度OCRにかけて補正可能（細かい⽂字に強く、信頼性が⾼い） - 位置を表現する特殊トークン導⼊して実現可能
> 例: ”Q: Company? A: Sansan株式会社<bbox><x_1><y_1><x_2><y_2></bbox>” 今後の展望: Cello ① ViolaとCelloの⽐較名前の由来（諸説なし） Viola を拡張して接地（Grounding）させて演奏する Cello から 16

国家プロジェクト「GENIAC」※に採択 - 計算リソースの助成を受け、⼤規模事前学習・ファインチューニングを実施 - 事前学習の効率化に関する知⾒を論⽂・ブログ等で公開予定 - GENIAC終了後、Violaの枠組みを⽤いて迅速に社会実装今後の展望: Cello ②
プレスリリース（https://jp.corp-sansan.com/news/2025/0716_02.html） ※GENIAC（Generative AI Accelerator Challenge）主に⽣成AIのコア技術である基盤モデルの開発に対する計算資源の提供や、データやAIの利活⽤に向けた実証調査の⽀援等を実施するプロジェクト。計算資源の提供としては2024年2⽉から第１期が、2024年10⽉から第2期の開発⽀援が⾏われている。 URL：https://www.meti.go.jp/policy/mono_info_service/geniac/index.html 17

まとめ

基盤モデル開発に⾄る背景 - OCR後処理の完全再現は困難 - 名刺以外のプロダクトでは独⾃OCRを作るフェーズではなかったビジネス⽂書特化基盤モデル「Viola」 - VQAモデルによって後処理不要 & 多プロダクト展開可能な設計
- 年間約1億円のビジネスインパクトを創出⾒込み Visual Grounding 機能を持つ基盤モデル「Cello」 - テキスト位置を介して既存エンジンと連携を可能にする - GENIACに採択によって開発が加速中まとめ 19

ビジネス文書に特化した基盤モデル開発 / SaaSxML_Session_2

ビジネス文書に特化した基盤モデル開発 / SaaSxML_Session_2

Sansan R&D

More Decks by Sansan R&D

Other Decks in Technology

Featured

Transcript

Sansan株式会社技術本部研究開発部シニアリサーチャー内⽥奏ビジネス⽂書に特化した基盤モデル開発 Sansan&CADDiが語るSaaS R&DとML最前線

写真が⼊ります内⽥奏 Sansan株式会社技術本部研究開発部シニアリサーチャー東京電機⼤学⼤学院⼯学研究科修⼠課程修了。深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。 2020年Sansan株式会社に新卒⼊社。

1. 基盤モデル開発に⾄る背景 i. Sansanにおける⽂書データ化 ii. 内製OCRエンジン開発を通して⾒えた課題 2. ビジネス⽂書に特化した基盤モデル「Viola」 i. コンセプト

基盤モデル開発に⾄る背景

背景: Sansanにおける⽂書データ化 ② ⼈と機械を組み合わせたデータ化システム - 次の観点を数値化しながら運⽤・改善 > Quality : データ化精度

99.9%の壁 - NineOCRをベースにEightのデータ化を完全⾃動化（2023年） > Sansanの精度要件は99.9%、Eightの要件よりもう1段⾼い - Sansanの完全⾃動化までに残された課題: 後処理 > OCR（検出+認識）結果をKey-Value形式に変換する部分

ビジネス⽂書特化基盤モデル「Viola」

GIT [1] ベースのアーキテクチャを採⽤ - 採⽤した理由 > 検証段階で⼗分に性能が出た > Hugging Face

同時多項⽬推論 - 単項⽬推論: 項⽬間の関係性を明⽰的にモデリング不可能 - 多項⽬推論: ⽂脈として⼊⼒することで明⽰的にモデリング可能 - 性能向上を確認し、NLP2025にて発表 [6]

複数ページ推論 - 請求書や契約書はデータ化項⽬が複数ページにまたがることが多い - Temporal Embeddingを導⼊して複数ページ推論可能とした - Violaの利⽤範囲を拡⼤し、性能に関する分析はJSAI2025にて発表済 [7] Viola:

今後の展望

まとめ

基盤モデル開発に⾄る背景 - OCR後処理の完全再現は困難 - 名刺以外のプロダクトでは独⾃OCRを作るフェーズではなかったビジネス⽂書特化基盤モデル「Viola」 - VQAモデルによって後処理不要 & 多プロダクト展開可能な設計