Upgrade to Pro — share decks privately, control downloads, hide ads and more …

画像系研究員の今までとこれから / The past and future of a rese...

Sansan DSOC
December 13, 2021

画像系研究員の今までとこれから / The past and future of a researcher

■イベント 
:Sansan R&D・エンジニア新卒LT会
https://sansan.connpass.com/event/228690/

■登壇概要
タイトル:画像系研究員の今までとこれから
発表者: 
R&D 研究員  内田 奏

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

December 13, 2021
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. Data Strategy and Operation Center ⾃⼰紹介 2020/03: 東京電機⼤学⼤学院 ⼯学研究科 情報通信⼯学専攻

    修了 局所特徴量を⽤いたトラッキング,Metric Learningを⽤いたファッション 画像の特徴抽出,超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事 2020/04:Sansan株式会社 ⼊社(インターンとしては2018/10より在籍) 画像⽣成技術を応⽤した名刺画像補正や独⾃開発OCRに関する研究に従事 内⽥ 奏 So Uchida s_aiueo32 S-aiueo32 Sansan 株式会社 技術本部 DSOC R&D Automation Group 研究員
  2. Data Strategy and Operation Center サマーインターンシップ 共通のデータからそれぞれのテーマを設定・分析・成果発表 • ビジネス上の課題は何か? /

    何がユーザの価値につながるか? • 実現可能性を踏まえ,メンターと相談しながらテーマを決定 最終成果報告会 中間報告会
  3. Data Strategy and Operation Center サマーインターンを通して テーブルデータほぼ未経験からなんとか切り抜けた • メンター社員の⼿厚いサポート •

    時間を意識して仕事に向き合うこと > 短期的な実現可能性を考慮したテーマ選定 > 時間を意識したコーディング • 処理時間の可視化・把握 / 実⾏回数等で優先順位を設けて⼯夫するか判断 インターン仲間が超優秀 • 異分野の強い⼈が集まるため,様々なアイデアが出てくる • 「こんな⼈たちと働きたい」という気持ちになる
  4. Data Strategy and Operation Center ⻑期インターンシップ 超解像 • 超解像: 画像の解像度を上げる技術

    • 名刺を拡⼤して⽂字認識精度向上 ホワイトニング • カメラ撮影名刺の影除去&輝度の引き上げ • Eightで名刺を取り込むと体験できます!!! M1の10⽉から画像タスクを任せてもらうことに
  5. Data Strategy and Operation Center ⻑期インターンを通して AWS/GCP上での開発を経験 • 開発は基本的にEC2インスタンスおよびその他リソースを利⽤ >

    必要とあらばGPUを浴びることも可能 ⾃⾝の専⾨性を評価してもらえる • 多様なメンバーが個々⼈の強みを認識・評価しあう⾵⼟がある • ⾃分の作ったモデルがビジネス的にOKなのかも評価 > Data Management Groupによるチェック・フィードバック 普通の業務以外にも⾊々経験できた • Sansan Builders Blogでの連載, 弊社主催勉強会への登壇 etc.
  6. Data Strategy and Operation Center 京都勤務でやったこと DSOC OCR ⼊⾨ •

    名刺に特化したOCRライブラリ開発は最優先課題の1つ > OCRの信頼性向上によるデータ化コスト削減 > 即時データ化によるユーザ体験の向上 • 性能改善のプロセスを学ぶ > 処理の意図を確認しながら再現実装 > 性能評価・ミス分析 > ミス分析結果を基に既存モデル改良 キーワード: Class-Incremental Learning
  7. Data Strategy and Operation Center 最近やったこと 10 全項⽬版 DSOC OCR

    • ⽂字認識部分を担当 > 既存のモデルを使わず,モデルを⼀新する判断 > 学習データ整備・モデル開発・API開発までやる > 先⽇プロダクション環境に無事リリースしました 🎉 複数⾏テキストに対する Attentionマップの遷移 ⽂字列検出結果
  8. Data Strategy and Operation Center グループ構成 (2022/04時点, 予定) Sansan⻑岡ラボ (2名)

    Sansan Innovation Lab(2名) 表参道オフィスに 研究員 6名 絶賛採⽤拡⼤中!!!
  9. Data Strategy and Operation Center やることは⼭積み 14 名刺OCRの完成系を⽬指す • 様々な分野の知識が必要

    > ⾔語処理・グラフニューラルネットワーク etc. > 専⾨は違えど根底となる知識は共通している場合が多いです • アカデミアにも貢献していきたい マルチプロダクトの根幹を担う • データ化の精度・スピードは事業成⻑に直結