Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Vertex AIで画像分類タスクのデータセットを準備する
Search
Shota Totsuka
February 06, 2025
0
54
Vertex AIで画像分類タスクのデータセットを準備する
Shota Totsuka
February 06, 2025
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
HITL実装によるマルチエージェント組織の設計パターン
totsukash
0
4
Claude Codeの知らない知識に立ち向かう
totsukash
1
320
Claude Codeの知らない知識、ADK, A2Aを用いた プロダクト開発をClaude Codeで行う
totsukash
0
350
Claude Code で Vibe Coding
totsukash
1
9
MCP, A2Aをプロダクトに組み込んで 開発している話
totsukash
1
9
Mastra活用|Text-to-SQLの実装と応用
totsukash
1
160
Bedrockでのプロンプト管理戦略
totsukash
3
150
Amazon SageMaker AIでモデル開発からデプロイまで試す
totsukash
2
51
Amazon CodeGuruをGitHubと統合して アプリケーションの品質管理を楽にする
totsukash
0
17
Featured
See All Featured
Measuring & Analyzing Core Web Vitals
bluesmoon
9
620
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Automating Front-end Workflow
addyosmani
1371
200k
It's Worth the Effort
3n
187
28k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.9k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
115
20k
The Invisible Side of Design
smashingmag
302
51k
Producing Creativity
orderedlist
PRO
347
40k
Unsuck your backbone
ammeep
671
58k
Transcript
None
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka
・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
自己紹介 ©Blueish 2024. All rights reserved. AWS認定(1月から開始)
会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ
設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 システム開発事業 Omni Workspace事業 サーバー最適化支援事業 資本金 1億4338万円
01 データ準備の全体像 02 Google Cloudでのデータ準備アプローチ 03 AWS SageMaker AI Ground
Truthとの比較 04 まとめ 目次 ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - 機械学習を触ってないけど、概要を掴んでおきたい - Google Cloud
/ AWS でどうやってラベリングをするのか知っておきたい 細かい説明は除き、大枠を掴めるような構成となっています。 対象
01 データ準備の全体像 ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - 機械学習プロジェクトの成功は「データの質」に依存する - ラベリングは、正確なモデル学習・評価の基盤 -
Garbage in, garbage out(ゴミを入れてもゴミが出てくるだけ) - データラベリングは主に教師あり学習において必要不可欠 データラベリングの重要性 データ準備の全体像 ネコ
©Blueish 2024. All rights reserved. Data Collection (データ収集) - 生データをさまざまなソースから取得
Data Preprocessing (データ前処理) - ノイズ除去,正規化などの処理を行い、クリーンなデータを作成 Data Labeling (データラベリング) - 正解ラベルを付与することで、後続のモデル学習の品質を向上 Model Training/Evaluation (モデルの学習/評価) - ラベル付きデータを用いてモデルを学習させ、 評価指標に基づいてパフォーマンスを確認 Deployment (デプロイメント) - 学習済みモデルを実際の運用環境へ展開 Feedback Loop (フィードバックループ) - モデルの評価結果や運用上の課題をもとに、 データ収集・前処理、ラベリングの工程へフィードバック MLパイプラインにおけるラベリングの位置づけ データ準備の全体像
©Blueish 2024. All rights reserved. 主な課題: - スケーラビリティと精度の両立 - コスト・運用面(人力
vs 自動) - タスク管理と品質管理の仕組み 公式リソース参考: - 各社のMLパイプラインのベストプラクティス資料 (Google CloudのML Pipeline Documentationなど) ラベリングの課題と考慮点 データ準備の全体像
02 Google Cloudでの データ準備アプローチ ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. Vertex AI Data Labeling Service(非推奨):
- 2024年10月3日以降使用不可 - 対象データ: 画像、テキスト、ビデオなど多様なデータに対応 - ラベリング作業をGoogle Cloudの担当者に依頼 Google CloudエコシステムとVertex AI Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. 分類: - JPEG,GIF,PNG,BMP,ICO 形式 (トレーニングデータ)
- 最大サイズは 30 MB - ラベルごとに約 1,000 個のトレーニング画像をおすすめ オブジェクト検出: - JPEG,GIF,PNG,BMP,ICO 形式 - 最大サイズは 30 MB - 推奨サイズ 1024 x 1024 ピクセル以下 - ラベルごとに約 1,000 個のアノテーションを使用することをおすすめ データの準備 Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. データセットの作成 Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. データセットの作成(画像) Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. データセットの作成 Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. データセットの作成 Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. ラベルが付かなかった場合は、手動で付与 Google Cloudでのデータ準備アプローチ
03 AWS SageMaker AI Ground Truthの紹介 ©Blueish 2024. All rights
reserved.
©Blueish 2024. All rights reserved. - ラベリングアプリケーションを構築したり、ラベリング担当者を管理したりするこ となく、高品質のトレーニングデータセットを作成できる - 教師データを効率良く作成するアノテーションツール/サービス
AWS SageMaker AI Ground Truthの概要 AWS SageMaker AI Ground Truthとの比較
©Blueish 2024. All rights reserved. AWS SageMaker AI Ground Truthとの比較
1. S3にオブジェクトを格納
AWS SageMaker AI Ground Truthとの比較 2. jobを作成(今回はTurkを使用)
©Blueish 2024. All rights reserved. AWS SageMaker AI Ground Truthとの比較
3. (option) ワーカーとして作業する
©Blueish 2024. All rights reserved. AWS SageMaker AI Ground Truthとの比較
4. タスクの完了
©Blueish 2024. All rights reserved. AWS SageMaker AI Ground Truthとの比較
5. ラベルの確認
©Blueish 2024. All rights reserved. - 機能差が大きくあるわけではない - 他のタスクとの兼ね合いや使用しているStorageに依存 -
手動でのラベリングはAWS(Turk)が使える Ground Truthとの比較 AWS SageMaker AI Ground Truthとの比較
04 まとめ ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど -
ラベルづけ, 正解データにはAWSを使用してTurk経由で依頼が楽かも - Cloud Storage, BigQueryを使っている/使いたい場合はVertex AI - JSONLで作成したメタデータを取り込むことも可能なため、このプラットフォーム 上で全てを完結させる必要はない まとめ
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.