Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクのアノテーション基盤の伸びしろを考えてみた
Search
sbrf248
April 18, 2024
Technology
240
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
バクラクのアノテーション基盤の伸びしろを考えてみた
sbrf248
April 18, 2024
More Decks by sbrf248
See All by sbrf248
LLMでAI-OCR、実際どうなの? / llm_ai_ocr_layerx_bet_ai_day_lt
sbrf248
1
10k
自社開発SaaSバクラクのAI技術とそれに向き合うエンジニアのやりがい / layerx-ai-engineer-dataconference20240601
sbrf248
0
410
Other Decks in Technology
See All in Technology
40代で“やっとエンジニアになれた”――閉じた学びを開き、空の青さを知る / 20260628 Naoki Takahashi
shift_evolve
PRO
4
1.2k
千葉での単身赴任からAWSをやり続け、千葉に戻ってきた話
yama3133
1
130
[AWS Summit Japan 2026]迷っているあなたへ_小さな一歩が、やがて自分を助けてくれる
sh_fk2
2
430
元・セキュリティ学習経験0大学生による業務紹介 / An Introduction to the Job by a Former College Student with Zero Security Training Experience
nttcom
0
970
AWS Summit Japan 2026の振り返りと2027へ向けて / AWS Summit Japan 2026 Recap and Prospects for 2027
kaminashi
1
100
從觀望到全公司落地:AI Agentic Coding 導入實戰 — 流程整合與安全治理
appleboy
0
170
クレデンシャル流出 ― 攻撃 3 時間 vs 復旧 10 時間。この非対称性にどう備えるか
kazzpapa3
3
620
PostgreSQL 19 新機能概要 OSC Hokkaido 2026
nori_shinoda
0
260
Fabricをフル活用する AI Agent Hub -製造業特化AIエージェントの設計
iotcomjpadmin
0
160
Deep Data Security 機能解説
oracle4engineer
PRO
2
230
作る力から、見極める力へ — AI時代に広がるエンジニアの価値と役割
rince
0
370
事業会社は今こそSWEを高給で雇ってWebシステムを内製しよう
masaokb
0
100
Featured
See All Featured
Test your architecture with Archunit
thirion
1
2.3k
Art, The Web, and Tiny UX
lynnandtonic
304
22k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
170
Crafting Experiences
bethany
1
190
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
210
30 Presentation Tips
portentint
PRO
1
330
Faster Mobile Websites
deanohume
310
32k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
72
40k
Navigating Weather and Climate Data
rabernat
0
250
We Are The Robots
honzajavorek
0
260
ラッコキーワード サービス紹介資料
rakko
1
3.8M
Transcript
© LayerX Inc. バクラクのアノテーション基盤の伸びしろを考えてみた 2024/04/18 めぐろLT #14 「データ分析よろず会」 株式会社LayerX Shun
Ito (@sbrf248)
© LayerX Inc. 2 バクラク事業部 機械学習チーム 機械学習エンジニア 伊藤 駿 (Shun
Ito) 自己紹介 経歴 • 2020/04 〜 2023/12 株式会社エブリー ◦ データサイエンティスト ◦ データチームマネージャー • 2024/01〜 株式会社LayerX ◦ 機械学習エンジニア ◦ AI-OCR機能の開発
© LayerX Inc. 3 「すべての経済活動を、デジタル化する。」をミッションに掲げ、 法人支出管理サービス「バクラク」や企業内業務のデジタル化を支援するサービスを提供しています。 事業紹介 バクラク事業 企業活動のインフラとなる法人支出 管理(BSM)SaaSを開発・提供
Fintech事業 ソフトウェアを駆使したアセットマネジメ ント・証券事業を合弁会社にて展開 AI・LLM事業 文書処理を中心とした、LLMの活用による プロセスのリデザイン
© LayerX Inc. 4 バクラクシリーズラインナップ 仕訳・支払処理効率化 法人カードの発行・管理 稟議・支払申請・経費精算 帳票保存・ストレージ *
経費精算のSlack連携は申請内容の通知のみ AIが領収書を5秒でデータ化 スマホアプリとSlack連携あり 領収書の重複申請などミス防止機能 AIが請求書を5秒でデータ化 仕訳・振込データを自動作成 稟議から会計までスムーズに連携 年会費無料で何枚でも発行可 インボイス制度・電帳法対応 すべての決済で1%以上の還元 AIが書類を5秒でデータ化 あらゆる書類の電子保管に対応 電子取引・スキャナ保存に完全対応 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 帳票発行 帳票の一括作成も個別作成も自由自在 帳票の作成・稟議・送付・保存を一本化 レイアウトや項目のカスタマイズも可能 ・ ・ ・
AI-OCR機能とアノテーション基盤
© LayerX Inc. 6 • バクラクにアップロードされた帳票ファイルから、項目ごとの値を機械学習で自動抽出 • 機械学習モデルの学習・評価のために、項目ごとのアノテーションデータ(座標・値)が必要 AI-OCR機能について AI-OCR機能とアノテーション基盤
帳票ファイル (画像・PDF) 帳票に記載の 項目ごとの値 500,000 2021/02/28 株式会社テンプレ 支払期日 支払金額 取引先名
© LayerX Inc. 7 • 内製ツールを使った社内アノテーション を進めている • 読み取り項目ごとに、座標の指定と 正解ラベルの値が入力できる
• 手入力削減のための工夫 ◦ AI-OCRモデルによる事前 アノテーション ◦ 座標内の文字列抽出 ◦ etc. バクラクのアノテーション基盤 AI-OCR機能とアノテーション基盤
アノテーションの伸びしろ
© LayerX Inc. 9 アノテーションの改善は、大きく2つの観点から考えられる 1. 品質管理と効率化 ◦ どうやって速く正確にアノテーションするか ◦
主にクラウドソーシング活用の文脈で研究されている 2. サンプリング ◦ どのデータをアノテーションするか ◦ 今回はこちらについて話します 現状のアノテーション基盤をさらに改善するには アノテーション改善の方向性
© LayerX Inc. 10 学習に効果的なデータをサンプリングして重点的にアノテーションしたい • そのための一連の手法は能動学習 (Active Learning) と呼ばれる
“効果的な”データを見つけるための2つの観点 • 不確実性サンプリング ◦ 機械学習モデルにとって予測が難しいデータを重点的にサンプリング • 多様性サンプリング ◦ 選ばれたデータの特性が互いに異なるようにサンプリング 『Human-in-the-Loop機械学習』 という書籍が体系的にまとめられていて参考になります https://www.kyoritsu-pub.co.jp/book/b10039888.html アノテーションにおけるサンプリングとは サンプリング
© LayerX Inc. 11 機械学習モデルにとって予測が難しいデータを重点的にサンプリング 不確実性サンプリング サンプリング 不確実性サンプリングの例(最小確信度サンプリング) 0.8 0.1
0.1 Class1 Class2 Class3 データ1に対する 予測結果 0.2 0.7 0.1 データ2に対する 予測結果 0.3 0.4 0.3 データ3に対する 予測結果 最大スコア 0.8 0.7 0.4 不確実性 小 大 • ラベルの無いデータから、機械学習モデルの決定境界近くに存在するデータを重視する 重点的にサンプリング
© LayerX Inc. 12 選ばれたデータの特性が互いに異なるようにサンプリング 多様性サンプリング サンプリング 多様性サンプリングの例(クラスタベースのサンプリング) • ラベルの無いデータにクラスタリングを適用し、クラスタごとに中心や外れ値を選ぶ
クラスタごとにサンプリング
© LayerX Inc. 13 課題: バクラクをご利用いただくお客様が増えるにつれて、アップロードされる帳票の枚数・種類も増加して いるため、より効果的なアノテーションが必要 不確実性サンプリングに注目した改善 • 新しい書類フォーマットへの対応
◦ 例えば請求書だけでも、事業規模や業界によってフォーマットは全く異なる ◦ 新しいお客様の帳票が学習データに無いフォーマットの場合、すぐには予測が難しい ◦ 不確実性サンプリングで難しい帳票をアノテーションし、いつの間にか読めない帳票が読める ようになる体験を素早く届ける バクラクのアノテーション基盤における改善案 バクラクにおける改善
© LayerX Inc. 14 課題: バクラクをご利用いただくお客様が増えるにつれて、アップロードされる帳票の枚数・種類も増加して いるため、より効果的なアノテーションが必要 多様性サンプリングに注目した改善 • 学習データの量・質のバランス改善
◦ お客様に長く使っていただくほど、会社ごとに特有の帳票も多くアップロードされていく ◦ 似たような帳票が増えると、データサイズの増加に対して情報量があまり多くならない ◦ 多様性サンプリングで似た帳票に偏らない、量・質ともに適切な学習データを作ることで、 学習・モデル更新のサイクルを高速に回せる バクラクのアノテーション基盤における改善案 バクラクにおける改善
最後に
© LayerX Inc. 16 今回紹介したテーマ含め、お客様にバクラクな体験を届けるためやりたいことがまだまだたくさんあります! 少しでも興味を持っていただけた方は、懇親会やカジュアル面談で是非お話ししましょう!! • 機械学習エンジニア • MLOpsエンジニア
• ソフトウェアエンジニア • etc. 一緒に働く仲間を募集しています! 最後に カジュアル面談 採用情報