Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Revisiting Scene Text Recognition: A Data Persp...

Sansan R&D
November 02, 2023

Revisiting Scene Text Recognition: A Data Perspective

■イベント :第60回 コンピュータビジョン勉強会@関東
https://kantocv.connpass.com/event/297737/

■登壇概要
タイトル:Revisiting Scene Text Recognition: A Data Perspective
発表者: 技術本部 研究開発部 Automationグループ 内田 奏

◉ 研究開発職 採用情報
https://media.sansan-engineering.com/randd

◉ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

November 02, 2023
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. Revisiting Scene Text Recognition: A Data Perspective Sansan株式会社 技術本部 研究開発部

    内⽥ 奏 第60回 コンピュータビジョン勉強会@関東
  2. 書誌情報 - タイトル: Revisiting Scene Text Recognition: A Data Perspective

    - 著者: Qing Jiang, Jiapeng Wang, Dezhi Peng, Chongyu Liu, Lianwen Jin - 所属: South China University of Technology 概要 - 「テキスト認識は解決された問題か?」をデータ観点で議論 - ⼤規模リアルデータセット Union14M を提案し、さらなる研究の余地を提起 選定理由 - 実務ではデータに向き合うタイミングの⽅が多く、問題意識に共感したため 論⽂情報
  3. シーンテキスト認識 (Scene Text Recognition; STR) - 情景画像から切り出されたテキスト領域から⽂字起こしする問題 > 情景画像は背景や歪みを含み、⽂書のテキスト認識より難しいとされる >

    要素技術は変わらないため、以降これらを区別しない - 基本的なアプローチ > Segmentation-based: 各⽂字を切り出して1⽂字ずつ当てに⾏く > Segmentation-free: ⼊⼒画像に対するラベル列を当てに⾏く - 深層学習の登場以降はこちらが主流 - ⾃然⾔語処理・⾳声認識 (ASR) などの系列認識問題と関わりが深い 問題設定
  4. CNN+RNN の組み合わせで解く - CRNN [Shi+ 2017]: VGG16+BiLSTM+CTC - RARE [Shi+

    2016]: STN+VGG16+BiLSTM+Attention - ASTER [Shi+ 2019]: STN+ResNet+BiLSTM+Attention RNN 時代 (2015-2019) テキスト認識の流れ [Baek+ 2019]
  5. テキスト認識にも Transformer [Vaswani+ 2017] が襲来 - NRTR [Sheng+ 2019]: 1D

    特徴に Transformer を適⽤ - SATRN [Lee+ 2020]: 位置埋め込みを改良して 2D 認識に対応 - ViTSTR [Atienza 2021]: ViT [Dosovitskiy+ 2019]に⽂字出⼒⽤ヘッドを追加 Transformer 時代 (2019-2021) RNN系とSATRNの⽐較 ViTSTR の構造
  6. Context-aware なテキスト認識を⽬指す Vision & Language 時代 (2020-) SRN [Yu+ 2020]

    ABINet [Fang+ 2021] VisionLAN [Wang+ 2021] MATRN [Na+ 2022] 詳しくは 👉
  7. NineOCR: 名刺に特化した独⾃ OCR エンジン - Transformer 時代のモデルが稼働 > 複数⾏テキスト認識可能, モデルサイズが適度,

    ⼀般語彙に引っ張られない etc. - テキスト認識に関する論⽂投稿 > ViTSTR に⾃動補正機能を付与したモデルの提案 Sansan での取り組み 名刺データ化のコスト削減に貢献 Iterative ViTSTR [⽵⻑+ 2023]
  8. 学習データ - フォントをレンダリングした⼈⼯データ > MJSynth [Jaderberg+ 2014], SynthText [Gupta+ 2016]

    - ⾃然画像からテキスト領域を切り出したデータ > COCO-Text [Veit+ 2016], Uber-Text [Zhang+ 2017] etc. > ku21fan/STR-Fewer-Labels [Baek+ 2021] 評価データ - clovaai/deep-text-recognition-benchmark [Baek+ 2019] > 著名なベンチマークデータセットを6つまとめたもの テキスト認識のデータセット
  9. Union14M のラベル付きサブセット (4M) - データセットの結合⽅法 > クロップ⽅法 - XY軸に沿ったポリゴンの外接矩形によってクロップ -

    背景にノイズを導⼊するため正則化の効果あり > 重複サンプルの除去 - 共通の⼀般物体認識データセット (e.g., OpenImages) を利⽤している場合が多いため > ⾮ラテン⽂字の除去 - CH, KR, IN などを除去 - テキスト認識の教師あり学習に利⽤可能 Union14M-L
  10. 既存研究で議論されるチャレンジ - Curve > 湾曲しているテキスト - Multi-Oriented > Left-to-right 以外の読み順

    - Artistic > ロゴデザイン等の芸術的なテキスト - Contextless > 数字やアルファベットの羅列 Union14M が内包するチャレンジ ①
  11. 既存研究であまり議論されないチャレンジ - Salient > 主題以外のテキストを含む - Multi-Words > 複数の単語を含む >

    ⼀般的なテキスト認識は 単語単位で性能を測る - Incomplete > 単語が途中で切れている > テキスト認識は本来字⾯を読むべき Union14M が内包するチャレンジ ②
  12. チャレンジドリブンなテストセット - Challenge-specific subsets > Union14M-L から⼿動で各チャレンジに該当するサンプルを選択 > Incomplete は⼤半のベンチマークモデルが正しく読めるサンプルを選択

    - ⾃動補正機能に関して調査するため - ランダムに最初/最後の⽂字を切り捨てる - General subset > チャレンジに該当しないサンプルも 多様な歪みを含む > Val / Benchmark で各0.4Mずつサンプリング Union14M-Benchmark Union14M-L の内訳
  13. 学習設定 - 事前分析で利⽤した13個のモデルを⼈⼯データ・Union14Mで学習 > 全て論⽂記載のハイパーパラメータを利⽤ - 出⼒クラス数は91 (数字, ⼤⽂字/⼩⽂字, シンボル,

    スペース) 評価指標 - WA (Word Accuracy): 単語が完全⼀致している割合 - WAIC (WA Ignoring Case): ⼤⽂字/⼩⽂字を無視 - WAICS (WA Ignoring Case and Symbol): ⼤⽂字/⼩⽂字/シンボルを無視 - Incomplete サブセットに対しては、WA のドロップで評価 (lower is better) 実験設定
  14. テキスト認識について - 問題設定 - モデル・データセットの研究動向 Union14M - 実画像から切り出した⼤規模データセット > Salient

    / Incomplete 等、従来にないチャレンジを含む - 実験を通してテキスト認識にまだ研究の余地があることを⽰した - MAERec (Masked Image Modeling + Fine-tuning) が SOTA 達成 まとめ
  15. Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ⼤公開- 11/10 (⾦) 19:00より、Sansanの研 究開発部メンバーが6つの発表を通 じて、プロダクトの進化のために

    どのように⾼速に仮説検証をすす め、リリースを実現しているのか をご紹介します。 告知 参加申し込みは connpassの Sansanページへ
  16. [Jaderberg+ 2014] M. Jaderberg, K. Simonyan, A. Vedaldi, and A.

    Zisserman, “Synthetic data and artificial neural networks for natural scene text recognition,” arXiv [cs.CV], Jun. 09, 2014. [Online]. Available: http://arxiv.org/abs/1406.2227 [Gupta+ 2016] A. Gupta, A. Vedaldi, and A. Zisserman, “Synthetic Data for Text Localisation in Natural Images,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 2315–2324. [Shi+ 2016] B. Shi, X. Wang, P. Lyu, C. Yao, and X. Bai, “Robust Scene Text Recognition with Automatic Rectification,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 4168–4176. [Shi+ 2017] B. Shi, X. Bai, and C. Yao, “An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 11, pp. 2298–2304, Nov. 2017. [Shi+ 2019] B. Shi, M. Yang, X. Wang, P. Lyu, C. Yao, and X. Bai, “ASTER: An Attentional Scene Text Recognizer with Flexible Rectification,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 41, no. 9, pp. 2035–2048, Sep. 2019. [Sheng+ 2019] F. Sheng, Z. Chen, and B. Xu, “NRTR: A No-Recurrence Sequence-to-Sequence Model for Scene Text Recognition,” in 2019 International Conference on Document Analysis and Recognition (ICDAR), Sep. 2019, pp. 781–786. [Baek+ 2019] J. Baek et al., “What is wrong with scene text recognition model comparisons? Dataset and model analysis,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, Oct. 2019, pp. 4714–4722. [Yu+ 2020] D. Yu et al., “Towards Accurate Scene Text Recognition With Semantic Reasoning Networks,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2020, pp. 12110–12119. 参考⽂献
  17. [Lee+ 2020] J. Lee, S. Park, J. Baek, S. J.

    Oh, S. Kim, and H. Lee, “On Recognizing Texts of Arbitrary Shapes with 2D Self- Attention,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), IEEE, Jun. 2020, pp. 2326–2335. [Fang+ 2021] S. Fang, H. Xie, Y. Wang, Z. Mao, and Y. Zhang, “Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 7098–7107. [Wang+ 2021] Y. Wang, H. Xie, S. Fang, J. Wang, S. Zhu, and Y. Zhang, “From two to one: A new scene text recognizer with visual language modeling network,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 14194– 14203. [Atienza 2021] R. Atienza, “Vision Transformer for Fast and Efficient Scene Text Recognition,” in Document Analysis and Recognition – ICDAR 2021, Springer International Publishing, 2021, pp. 319–334. [Na+ 2022] B. Na, Y. Kim, and S. Park, “Multi-modal Text Recognition Networks: Interactive Enhancements Between Visual and Semantic Features,” in Computer Vision – ECCV 2022, Springer Nature Switzerland, 2022, pp. 446–463. [Jiang+ 2023] Q. Jiang, J. Wang, D. Peng, C. Liu, and L. Jin, “Revisiting Scene Text Recognition: A Data Perspective,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 20543–20554. [⽵⻑+ 2023] ⽵永慎太朗, 内⽥奏, “確信度に基づいた⾃⼰修正機構を持つ⾼速な⽂字認識モデル,” in MIRU2023. 参考⽂献