Upgrade to Pro — share decks privately, control downloads, hide ads and more …

バクラクのドキュメント解析技術と実データにおける課題 / layerx-ccc-winter-...

shimacos
December 14, 2024

バクラクのドキュメント解析技術と実データにおける課題 / layerx-ccc-winter-2024

cvpaper.challenge Conference winter 2024の技術紹介セッションで
「バクラクのドキュメント解析技術と実データにおける課題」
と題して発表させていただきました。
https://research-p.com/event/1972

概要:
LayerXは、バックオフィス業務の効率化を目指したAI SaaS「バクラク」を提供しています。このサービスには、バックオフィス業務に特化した多彩なAI機能を持つ「バクラクAI」が組み込まれています。本発表では、バクラクAIを支える技術的基盤、実際のデータ活用における課題、そして今後の展望について紹介します。

shimacos

December 14, 2024
Tweet

More Decks by shimacos

Other Decks in Technology

Transcript

  1. © LayerX Inc. 2 バクラク事業部 AI-OCRグループ Tech Lead/ 機械学習エンジニア 経歴

    • 2019/04 京都⼤学⼤学院 ⼯学研究科 修⼠課程修了 • 新卒では、DeNAでタクシー配⾞アプリに関する機械学習 システムの構築や、ライブストリーミングサービスにおけ る推薦システム構築に携わる • 現在 ◦ 株式会社LayerX AI-OCRグループ Tech Lead ◦ バクラク事業部において、AI-OCRの改善や 新しい機械学習システムの構築を担当 ◦ Kaggle Competitions Grandmaster ⾃⼰紹介 島越 直⼈(Naoto Shimakoshi) @nt_4o54
  2. © LayerX Inc. 6 LayerXについて ⽇本の労働需給ギャップは深刻 2040年に労働需給ギャップ 1100万⼈ 出所: リクルートワークス研究所

    Works Report: 未来予測2040 労働供給制約社会がやってくる ⽇本全体で必要な⽣産性 +20%
  3. © LayerX Inc. 9 バクラクのAI機能群 業務に⾼頻度で潜むアナログな⼿間 • 請求書を1枚1枚スキャンする⼿間 • 領収書をシステムに⼿⼊⼒する⼿間

    • 仕訳を作成する⼿間 • カード明細と領収書との突合の⼿間 • 書類の情報を⼊⼒する⼿間 • 請求書をAIが⾃動分割して取り込み • 領収書のデータをAIが⼊⼒ • AIが過去に学習した仕訳を⼊⼒ • 領収書とカード明細をAIが紐付け • AIが書類種別を判定してラベル付け AIにより、アナログな⼿間を無くしていく
  4. © LayerX Inc. 11 ドキュメント解析とComputer Vision分野との繋がり Bakuraku AI ⽂字が⼤きい⽅を取りたい? 表形式で縦と横の

    依存関係が混在 ロゴや印影‧ハンコから 認識したい? 蛍光ペンを 引いてるところを 認識したい?
  5. © LayerX Inc. 12 ドキュメント解析とComputer Vision分野との繋がり Bakuraku AI ⽂字が⼤きい⽅を取りたい? 表形式で縦と横の

    依存関係が混在 ロゴや印影‧ハンコから 認識したい? ドキュメントの内容を理解するには 視覚情報 (Vision)とテキスト情報 (Language)、位置関係 (Layout) を組み合わせて理解する必要がある 蛍光ペンを 引いてるところを 認識したい?
  6. © LayerX Inc. 16 ⽇常業務の中で⾃然にAIを活⽤いただけるような体験を提供 Bakuraku AI 写真を撮影し、まとめて アップロードするとAIがデータ⼊⼒ 請求書をアップロードした瞬間に、

    AIが過去に学習した仕訳を⼊⼒ 領収書をアップロードした瞬間にAIが カード明細情報と照合適切な明細と紐付け 複数枚まとめてスキャンすると、 PDFファイルをAIが⾃動分割 あらゆる種別の書類をまとめてアップロード すると、AIが書類種別を判定し、ラベル付与
  7. © LayerX Inc. 17 • PDFや画像といった⾮構造化データからの項⽬抽出や分類 • 情報抽出されたデータや顧客の履歴データなどの構造化データを⽤いた推薦モデル Bakuraku AIに関わる要素技術

    Bakuraku AI ドキュメント画像 からの情報抽出 構造化データを⽤いた推薦モデル 画像やPDFからの項⽬抽出タスク 画像やPDFの書類分類 領収書に対してカード明細を推薦 請求書に対して仕訳を推薦 複数の請求書から抽出した情報から 尤もらしい分割点を予測 各社の運⽤に合わせて 項⽬抽出した値を推薦 B社 A社 C社
  8. © LayerX Inc. 19 項⽬抽出部分はBERT系 (NLPモデル)や、Object Detection (CVモデル)系、 LayoutLM (マルチモーダルモデル)系などを複数検証

    パーソナライズドAI-OCR (項⽬抽出モデル) Bakuraku AI Jacov Deblin, et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, ACL, 2019 Zheng Ge, et al., YOLOX: Exceeding YOLO Series in 2021, arxiv, 2021 Yupan Huang, et al., LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking, ACM, 2022
  9. © LayerX Inc. 20 RoBERTa • モデル⼊⼒ ◦ OCRされた⽂書テキスト •

    モデル出⼒ ◦ Tokenに対応するラベル (Token Classification) • 選定理由 ◦ まずはシンプルな実装で ベースラインを作るのが重要 パーソナライズドAI-OCR (項⽬抽出モデル) Bakuraku AI
  10. © LayerX Inc. 21 YOLOXなどのObject Detectionモデル • モデル⼊⼒ ◦ PDFを画像化したもの

    ◦ 携帯で撮った写真 • モデル出⼒ ◦ 欲しいラベルのBBox ◦ OCR結果と突合して出⼒する • 選定理由 ◦ 画像情報がどれほど重要かを検証 パーソナライズドAI-OCR (項⽬抽出モデル) Bakuraku AI PaymentAmount
  11. © LayerX Inc. 22 LayoutLMv3 • モデル⼊⼒ ◦ OCRされた⽂書テキスト ◦

    PDFを画像化したもの ◦ 携帯で撮った写真 • モデル出⼒ ◦ Tokenに対応するラベル (Token Classification) • 選定理由 ◦ 当時のSoTAかつToken Classificationの 枠組みで解ける パーソナライズドAI-OCR (項⽬抽出モデル) Bakuraku AI
  12. © LayerX Inc. 23 最終的にお客様が欲しいのは、「誰に対して」「いつ」「いくら⽀払った」といった情報。 同じ書類であっても、お客様の運⽤によって変わることがあるため、過去の⼊⼒履歴を活⽤。 パーソナライズドAI-OCR (推薦モデル) Bakuraku AI

    会社名が欲しい or 担当者名が欲しい 税込⾦額が欲しい or 税抜⾦額が欲しい 税抜⾦額 税抜⾦額 税込⾦額 会社名 会社名 担当者名 過去の⼊⼒履歴 お客様が欲しい値を推薦 税抜⾦額 会社名
  13. © LayerX Inc. 29 • お客様が増えていく中で、書類の多様性なども⽇々増えていくが、 全ての書類に対してアノテーションできるわけではない。 ◦ 間違えやすい書類をどのように集めてアノテーションに回すか。 ◦

    お客様のFBをどのように次の学習に活⽤するか。 • 修正してくれるお客様とそうでないお客様が存在する中、ラベルノイズの影響をどう減らすか。 これらをプロダクトをリリースする前に設計し、必要なログなどを仕込む必要がある。 機械学習モデルの開発はデプロイして終わりではない。 実データにおける課題 フィードバックサイクルの設計が重要 AI アウトプット 人 Feedback・改善 DB Model UI/UX
  14. © LayerX Inc. 30 • ラベルの作り⽅に間違った仮定が⼊ってなかったか • 想定していなかった運⽤のお客様が増えていないか • 実際にお客様に話を聞きにいくのも重要

    実データにおける課題 デプロイした後も常にモニタリングし、再設計し続ける 急激な精度変化の検知 精度が⽐較的低いお客様で 何が起きているのかの分析 ※グラフはダミーデータです
  15. © LayerX Inc. 35 • ドキュメントという⾮構造化データを起点に CVやNLP、推薦などの複合的な技術を⽤いて、お客様の課題を解決しています。 • モデルを作成する技術はもちろんですが、継続的に改善をするために、 ログの設計やFBサイクルの設計などのMLOps的要素をモデル作成時から考える必要がある。

    • 今後、さらに多様なユースケースを解決していくために、 様々な技術を⽤いてお客様の体験を「バクラク」にしていきます。 まとめ LayerXでは様々な技術を組み合わせてお客様の課題を解決しています