Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LPIXEL×CADDi_kaerururu
Search
kaerururu
March 14, 2024
Programming
600
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LPIXEL×CADDi_kaerururu
kaerururu
March 14, 2024
More Decks by kaerururu
See All by kaerururu
kaggler なら知っておきたい GPU の話
kaerururu
0
3.1k
Other Decks in Programming
See All in Programming
生成AI時代にこそ効くGo | Why Go Works in the Age of Generative AI
mom0tomo
8
3.3k
Oxcを導入して開発体験が向上した話
yug1224
4
320
Vue × Nuxt × Oxc どこまで使える?実運用の現在地
andpad
0
270
Vite+ Unified Toolchain for the Web
naokihaba
0
320
肥大化するレガシーコードに立ち向かうためのインターフェース分離と依存の逆転 / JJUG CCC 2026 Spring
hirokunimaeta
0
580
Oxlintのカスタムルールの現況
syumai
6
1.1k
正しくソフトウェアを作る、前提を疑うための認知の視点 / doubt-premise
minodriven
21
6.7k
ユニットテストの先へ:テスト技法で要求・仕様を整理するJava開発実践 / Beyond_Unit_Testing_Practical_Java_Development_Techniques_for_Organizing_Requirements_and_Specifications
shimashima35
0
410
Lessons from Spec-Driven Development
simas
PRO
0
210
Snowflake Summitでの新機能 CoCo / CoWork / snowflake-summit-2026-overall-what-new-coco
tatsuhiro
1
150
Hunting Vulnerabilities in Symfony with LLMs
vinceamstoutz
0
550
Signal Forms: Details & Live Coding @enterJS 2026 in Mannheim
manfredsteyer
PRO
0
160
Featured
See All Featured
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Abbi's Birthday
coloredviolet
2
8.1k
A better future with KSS
kneath
240
18k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
320
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
600
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
The Language of Interfaces
destraynor
162
27k
Agile that works and the tools we love
rasmusluckow
331
21k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
170
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
250
The Cost Of JavaScript in 2023
addyosmani
55
10k
Exploring anti-patterns in Rails
aemeredith
3
410
Transcript
kaerururu @ CADDi 実例で示すKaggleコンペと開発実務の差
Who are you? • kaerururu • 仕事: MLOps 修行中の MLE
• 専攻: 経済史 • 趣味: Kaggle, 釣り • Kaggle ◦ あと金一枚で GM (誰か力貸してください) ◦ 画像やテキスト系のコンペを好んで参加 会社・ロール ドメイン × データ キャリアチェンジ前 金融系の営業とか SE とか ストックマーク MLE DMM.com MLE CADDi MLE MLOps ビジネスニュース × NLP エンタメ × テーブル, 検索改善 製造業 × 画像
Who are you? • kaerururu • 仕事: MLOps 修行中の MLE
• 専攻: 経済史 • 趣味: Kaggle, 釣り • Kaggle ◦ あと金一枚で GM (誰か力貸してください) ◦ 画像やテキスト系のコンペを好んで参加 会社・ロール ドメイン × データ キャリアチェンジ前 金融系の営業とか SE とか ストックマーク MLE DMM.com MLE CADDi MLE MLOps ビジネスニュース × NLP エンタメ × テーブル, 検索改善 製造業 × 画像 製造業ドメインないです
Contents • 図面について • Kaggle とCADDi での機械学習モデル開発の比較 • まとめ
None
What is 図⾯
What is 図面
図面には読み取るべき情報が多い 角を切り 落とす 穴 溶接 長さ 注意書き 製図者、材質、加 工の内容 etc
例) 溶接記号 (一部抜粋) 記号 旧記号 記号 旧記号 • 図面内で使われる記号 •
日本の国家規格 (JIS) で定められている ◦ 規格の新旧で違う記号が存在 • ここにあげたものだけでも 17クラス • 組み合わせで登場することも
(MLE からみた) 図面の特徴 • いわゆる公開データセットやモデルみたいなものがない ◦ 設計図 = 競争力 なので公開するインセンティブがない
• デカい ◦ 現場ではテーブルに広げたりする ◦ よくある大きさ (表) • 自由度が高い ◦ 共通プロトコルはあるが ... ◦ 手書き、取消線、社内ルール ◦ AI ってやつでなんとかして 画像サイズ (px) A0 11,589 × 16,384 A1 8,185 × 11,589 A3 4,093 × 5,787 A4 2,894 × 4,093
図面ドメインでの機械学習タスク 結構シンプル! 類似図面検索の精度向上 図面OCR 図面特有の記号認識 • 画像ベクトル • Object Detection
• Text Recognition • Object Detection • Classification
Kaggle と CADDi での ML モデル開発の取り組み⽅の⽐較
CADDi での ML モデル開発の流れ タスク設計 データセット 作成 モデリング 評価 推論コード
作成 デプロイ 運用
データセット作成 • どういうアノテーションのコンペは良コンペ だった ? • 何枚くらいアノテーションすればいい ? Kaggleの 知見
アノテーションデータを作成する • 定義 • 対象データ収集 • アノテーション実施 実務の 課題 Kaggle でアノテーションのやり方は身につかないが … 多数のコンペに参加して得た勘所が活きる
• 推論結果 = 顧客価値につながるため、ユースケースを考えて定義 ◦ PdM や社内の製造業ドメインエキスパートと相談 • 溶接記号検出のユースケース ◦
溶接する必要があるか否か ◦ どこを溶接するか ▪ ハイライトしたい etc… アノテーションの定義をする A B 記号部分のみ ピンポイント 周囲の数字とか 文字とかまで シングル ラベル マルチ ラベル
アノテーション対象のデータを集める • 同一ホスト過去コンペのデータに擬似ラベルをつけて学習データを増やす (Pseudo Labeling) • ベースラインモデルをサクッと作り、高速に検証を回す Kaggleの 知見 •
CADDi で預かっているたくさんの図面から学習に必要な図面のみを集めたい • アノテーションの工数削減のためプレアノテーションを実施したい • 一度のアノテーションで欲しいラベルが全て集まるとは限らない 実務の 課題 Pseudo Labeling の経験やモデル作成の速さは アノテーションプロセスの効率化にも活きる
モデリング・評価 Kaggle 実務 評価データ 評価指標 モデル 再現性 固定 精度 アンサンブルし
てでも精度 自分のために 重要 変動あり 精度 速度 シンプルさも重 要 チームの運用 のために重要 変動する事業状況に追従し、チーム全体でプロダクトとしての性能要求 (精度+α)を満たすこと、運用まで見据えたモデリングが重要
推論コード作成 • local で学習して、kaggle notebook で推論 • 学習と推論で前処理を揃える (CV 通りのスコアがでるよう過不足なく
) • 環境差分への配慮 (Kaggle Docker の利用) Kaggleの 知見 • 未知データに対して検証時と同様の精度を担保したい • 運用を見据えたコード品質 ◦ 単体テスト、型ヒント、静的解析 ◦ ロギング、例外処理 • コンテナ化 実務の 課題 Code Competition の普及、学習と推論を別環境でやる経験値は身に付く
運用 CADDi の ML チームで実際に見ているダッシュボード (抜粋) 他にも、レイテンシ, レプリカ数, レスポンス数 なども追っている
デプロイしてからが本番 安定して顧客価値を届けるために日々挙動を確認 もしもの時は迅速に対応する
• データを集める工夫が面白い ◦ データセントリックなアプローチ ◦ プレアノテーション • 精度だけじゃないモデル評価 ◦ 精度はもちろん、コストやレイテンシとのバランスも大事
◦ どの関数で何秒かかっているのかとかも計測 • 運用が大事 ◦ デプロイしてからが価値提供の本番 ◦ バグを産みにくくするためコード品質向上の徹底 ◦ 迅速な不具合対応のためのモニタリング CADDi の ML チームでの学び
まとめ
• 図面ドメインは解くべき課題、取れるアプローチが多い • CADDi での ML モデル開発タスクの取り組み方を例に、どのように Kaggle で培っ た経験が活きるかをお話しした
• Kaggle と異なる視点での機械学習モデルの開発運用は楽しい まとめ