論⽂紹介 ・ Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition ・ BEDSR-Net: A Deep Shadow Removal Network from a Single Document Image ・ Document Binarization using Recurrent Attention Generative Model ・ LayoutLMv2: Multi-modal pre-training for visually-rich document understanding ・ まとめ 注)紹介する論⽂は社内勉強会で読んだもので実際にSansan株式会社で利⽤しているアルゴリズム とは異なります
Deep Shadow Removal Network from a Single Document Image ・ Yun-Hsuan Lin, et al. ・ National Taiwan University ・ CVPR2020 ・ 著者⽈く 「⽂書画像の影を除去するために特別に設計された 初のディープネットワーク」
識」に⼤きく分かれる ・ Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition ・ Shancheng Fang, et al. ・ University of Science and Technology of China ・ CVPR2021 ・ 最近増えてきたTransformerを使った⽂字認識モデル
名刺:姓名、住所、肩書きなど ・ レシート:⽇付、合計⾦額など ・ LayoutLMv2: Multi-modal pre-training for visually-rich document understanding ・ Yang Xu, et al. ・ Harbin Institute of Technology, Microsoft Research Asiaなど ・ OCR部分は既存の⼿法を使⽤。OCRで検出された単語やPDF Parserによって得 られたテキストをもとに、⽂書のレイアウトを学習するというモデル。