Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクのアノテーション基盤の伸びしろを考えてみた
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
sbrf248
April 18, 2024
Technology
240
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
バクラクのアノテーション基盤の伸びしろを考えてみた
sbrf248
April 18, 2024
More Decks by sbrf248
See All by sbrf248
LLMでAI-OCR、実際どうなの? / llm_ai_ocr_layerx_bet_ai_day_lt
sbrf248
1
10k
自社開発SaaSバクラクのAI技術とそれに向き合うエンジニアのやりがい / layerx-ai-engineer-dataconference20240601
sbrf248
0
410
Other Decks in Technology
See All in Technology
組織における AI-DLC 実践
askul
0
170
【FinOps】データドリブンな意思決定を目指して
z63d
2
490
元・セキュリティ学習経験0大学生による業務紹介 / An Introduction to the Job by a Former College Student with Zero Security Training Experience
nttcom
0
970
小さいから、全部わかる。— 常駐AI "xangi" のすすめ
sugupoko
0
120
2026-06-24_人とAIの責務分離に基づく開発プロセスの提案.pdf
takahiromatsui
0
250
Oracle Cloud Infrastructure:2026年6月度サービス・アップデート
oracle4engineer
PRO
1
380
AWS Summit の片隅で、体育座りしながらコミュニティがにぎわう理由を考えた
k_adachi_01
2
280
打造你的 AI 工作流:Agent Skill + MCP 實戰工作坊
appleboy
0
180
From Prompt Engineering to Loop Engineering
shibuiwilliam
1
290
Why is RC4 still being used?
tamaiyutaro
0
180
Flow 不死:AI 時代 DevOps 的不變本質
cheng_wei_chen
2
550
OTel × Datadog で 「AI活用」を計測し、改善に繋げる
shihochan
2
1.1k
Featured
See All Featured
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
350
Docker and Python
trallard
47
3.9k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
First, design no harm
axbom
PRO
2
1.2k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
170
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
620
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
260
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
2k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
WCS-LA-2024
lcolladotor
0
660
Reality Check: Gamification 10 Years Later
codingconduct
0
2.2k
Transcript
© LayerX Inc. バクラクのアノテーション基盤の伸びしろを考えてみた 2024/04/18 めぐろLT #14 「データ分析よろず会」 株式会社LayerX Shun
Ito (@sbrf248)
© LayerX Inc. 2 バクラク事業部 機械学習チーム 機械学習エンジニア 伊藤 駿 (Shun
Ito) 自己紹介 経歴 • 2020/04 〜 2023/12 株式会社エブリー ◦ データサイエンティスト ◦ データチームマネージャー • 2024/01〜 株式会社LayerX ◦ 機械学習エンジニア ◦ AI-OCR機能の開発
© LayerX Inc. 3 「すべての経済活動を、デジタル化する。」をミッションに掲げ、 法人支出管理サービス「バクラク」や企業内業務のデジタル化を支援するサービスを提供しています。 事業紹介 バクラク事業 企業活動のインフラとなる法人支出 管理(BSM)SaaSを開発・提供
Fintech事業 ソフトウェアを駆使したアセットマネジメ ント・証券事業を合弁会社にて展開 AI・LLM事業 文書処理を中心とした、LLMの活用による プロセスのリデザイン
© LayerX Inc. 4 バクラクシリーズラインナップ 仕訳・支払処理効率化 法人カードの発行・管理 稟議・支払申請・経費精算 帳票保存・ストレージ *
経費精算のSlack連携は申請内容の通知のみ AIが領収書を5秒でデータ化 スマホアプリとSlack連携あり 領収書の重複申請などミス防止機能 AIが請求書を5秒でデータ化 仕訳・振込データを自動作成 稟議から会計までスムーズに連携 年会費無料で何枚でも発行可 インボイス制度・電帳法対応 すべての決済で1%以上の還元 AIが書類を5秒でデータ化 あらゆる書類の電子保管に対応 電子取引・スキャナ保存に完全対応 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 帳票発行 帳票の一括作成も個別作成も自由自在 帳票の作成・稟議・送付・保存を一本化 レイアウトや項目のカスタマイズも可能 ・ ・ ・
AI-OCR機能とアノテーション基盤
© LayerX Inc. 6 • バクラクにアップロードされた帳票ファイルから、項目ごとの値を機械学習で自動抽出 • 機械学習モデルの学習・評価のために、項目ごとのアノテーションデータ(座標・値)が必要 AI-OCR機能について AI-OCR機能とアノテーション基盤
帳票ファイル (画像・PDF) 帳票に記載の 項目ごとの値 500,000 2021/02/28 株式会社テンプレ 支払期日 支払金額 取引先名
© LayerX Inc. 7 • 内製ツールを使った社内アノテーション を進めている • 読み取り項目ごとに、座標の指定と 正解ラベルの値が入力できる
• 手入力削減のための工夫 ◦ AI-OCRモデルによる事前 アノテーション ◦ 座標内の文字列抽出 ◦ etc. バクラクのアノテーション基盤 AI-OCR機能とアノテーション基盤
アノテーションの伸びしろ
© LayerX Inc. 9 アノテーションの改善は、大きく2つの観点から考えられる 1. 品質管理と効率化 ◦ どうやって速く正確にアノテーションするか ◦
主にクラウドソーシング活用の文脈で研究されている 2. サンプリング ◦ どのデータをアノテーションするか ◦ 今回はこちらについて話します 現状のアノテーション基盤をさらに改善するには アノテーション改善の方向性
© LayerX Inc. 10 学習に効果的なデータをサンプリングして重点的にアノテーションしたい • そのための一連の手法は能動学習 (Active Learning) と呼ばれる
“効果的な”データを見つけるための2つの観点 • 不確実性サンプリング ◦ 機械学習モデルにとって予測が難しいデータを重点的にサンプリング • 多様性サンプリング ◦ 選ばれたデータの特性が互いに異なるようにサンプリング 『Human-in-the-Loop機械学習』 という書籍が体系的にまとめられていて参考になります https://www.kyoritsu-pub.co.jp/book/b10039888.html アノテーションにおけるサンプリングとは サンプリング
© LayerX Inc. 11 機械学習モデルにとって予測が難しいデータを重点的にサンプリング 不確実性サンプリング サンプリング 不確実性サンプリングの例(最小確信度サンプリング) 0.8 0.1
0.1 Class1 Class2 Class3 データ1に対する 予測結果 0.2 0.7 0.1 データ2に対する 予測結果 0.3 0.4 0.3 データ3に対する 予測結果 最大スコア 0.8 0.7 0.4 不確実性 小 大 • ラベルの無いデータから、機械学習モデルの決定境界近くに存在するデータを重視する 重点的にサンプリング
© LayerX Inc. 12 選ばれたデータの特性が互いに異なるようにサンプリング 多様性サンプリング サンプリング 多様性サンプリングの例(クラスタベースのサンプリング) • ラベルの無いデータにクラスタリングを適用し、クラスタごとに中心や外れ値を選ぶ
クラスタごとにサンプリング
© LayerX Inc. 13 課題: バクラクをご利用いただくお客様が増えるにつれて、アップロードされる帳票の枚数・種類も増加して いるため、より効果的なアノテーションが必要 不確実性サンプリングに注目した改善 • 新しい書類フォーマットへの対応
◦ 例えば請求書だけでも、事業規模や業界によってフォーマットは全く異なる ◦ 新しいお客様の帳票が学習データに無いフォーマットの場合、すぐには予測が難しい ◦ 不確実性サンプリングで難しい帳票をアノテーションし、いつの間にか読めない帳票が読める ようになる体験を素早く届ける バクラクのアノテーション基盤における改善案 バクラクにおける改善
© LayerX Inc. 14 課題: バクラクをご利用いただくお客様が増えるにつれて、アップロードされる帳票の枚数・種類も増加して いるため、より効果的なアノテーションが必要 多様性サンプリングに注目した改善 • 学習データの量・質のバランス改善
◦ お客様に長く使っていただくほど、会社ごとに特有の帳票も多くアップロードされていく ◦ 似たような帳票が増えると、データサイズの増加に対して情報量があまり多くならない ◦ 多様性サンプリングで似た帳票に偏らない、量・質ともに適切な学習データを作ることで、 学習・モデル更新のサイクルを高速に回せる バクラクのアノテーション基盤における改善案 バクラクにおける改善
最後に
© LayerX Inc. 16 今回紹介したテーマ含め、お客様にバクラクな体験を届けるためやりたいことがまだまだたくさんあります! 少しでも興味を持っていただけた方は、懇親会やカジュアル面談で是非お話ししましょう!! • 機械学習エンジニア • MLOpsエンジニア
• ソフトウェアエンジニア • etc. 一緒に働く仲間を募集しています! 最後に カジュアル面談 採用情報