Upgrade to Pro — share decks privately, control downloads, hide ads and more …

FiftyOneを用いたOCRモデルの比較 / Comparing OCR Models us...

FiftyOneを用いたOCRモデルの比較 / Comparing OCR Models using FiftyOne

イベント名:Money Forward Tech Day 2024
登壇日:2024年9月20日
登壇者:Danny Siu
説明:コンピュータビジョンモデルを効果的に構築するためには、モデルの学習に使用されるデータを視覚化し、理解できることが重要です。本講演では、画像データを視覚化し、スケール分析するために使用できるオープンソースツール、FiftyOneを紹介します。
イベントURL:https://techday.moneyforward-dev.jp/2024/

Money Forward, Inc.

September 25, 2024
Tweet

More Decks by Money Forward, Inc.

Other Decks in Technology

Transcript

  1. • 2017-2022: PhD in Behavioral and Computational Neuroscience 
 ◦

    PhD: 行動/計算神経科学 
 • 2021-2023: Data Scientist at GEICO 
 ◦ GEICOでデータサイエンティスト 
 • 2023-Present: Money Forward (AI Development Division) 
 ◦ マネーフォワード -> AI 開発部 
 
 X: @siudanners 
 In: linkedin.com/in/siudanny 
 ダニー シュー Danny Siu
  2. 目標:請求書からフィールドを抽出する Goal: Extract fields from invoices • Optical Character Recognition

    (OCR)
 • OCR is easy if we have one layout
 • We can simply crop the same text area and read the text for each image
 
 
 { "小計": 23,450,000, "消費税": 2,345,000, "合計": 25,795,000 } • 光学式文字認識 (OCR)
 • レイアウトが統一されていれば、 OCRは簡単
 • 同じテキストエリアを切り抜いて、テキストを読み 取るだけ 
 
 

  3. • レイアウトがたくさんあると、モデルが学習 しにくい
 • お客様に提供するために、AI-OCRモデル を社内で構築中
 
 • If there

    are a lot of layouts, it is hard for the model to learn
 • We are building in-house AI-OCR models to serve our customers
 実際はデータセットには何百種類ものレイアウトが存在する However, there are hundreds of unique layouts in our dataset
  4. 様々なメタデータでフィルタリングできる
 • プロダクト
 • 日時
 • 画像の向き
 • モデル性能
 We

    can filter on many metadata
 • Product
 • Date
 • Orientation
 • Model performance
 FiftyOneは迅速かつ柔軟 FiftyOne is fast and flexible
  5. • バウンディング・ボックス を重ね合わせ、モデルの 予測値を比較することが できる。
 
 • We can overlay

    bounding boxes and compare model predictions
 FiftyOneでは、OCRモデルの結果を比較することができます FiftyOne allows us to compare OCR model results
  6. • 2次元埋め込み空間では、 似たような文書を検索する ことができる
 
 • In the 2D embedding

    space we can search for similar looking documents
 FiftyOneでは画像の埋め込みが可能 FiftyOne allows image embeddings
  7. • 特定のテキストを含む文書を検索 できる
 
 • We can search for documents

    with specific texts
 FiftyOneではテキスト検索が可能 FiftyOne allows text search