Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Vertex AIで画像分類タスクのデータセットを準備する
Search
Shota Totsuka
February 06, 2025
0
43
Vertex AIで画像分類タスクのデータセットを準備する
Shota Totsuka
February 06, 2025
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
Amazon SageMaker AIでモデル開発からデプロイまで試す
totsukash
1
29
Amazon CodeGuruをGitHubと統合して アプリケーションの品質管理を楽にする
totsukash
0
13
AWS Glueで始めるETLパイプライン
totsukash
0
15
Bedrockでガードレールのフィルターを理解する
totsukash
1
55
Amazon Novaを使用した蒸留
totsukash
2
85
SageMaker AIワークフローのあれこれ紹介
totsukash
1
67
Text-to-SQLで自然言語から構造化データを取得する
totsukash
2
110
トークナイザーの仕組みを少しだけ深ぼって理解する
totsukash
0
55
Bedrockエージェントから見るAI Agentとその挙動
totsukash
1
55
Featured
See All Featured
How to train your dragon (web standard)
notwaldorf
91
5.9k
Building Your Own Lightsaber
phodgson
104
6.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
134
33k
Product Roadmaps are Hard
iamctodd
PRO
51
11k
BBQ
matthewcrist
87
9.5k
Statistics for Hackers
jakevdp
797
220k
Agile that works and the tools we love
rasmusluckow
328
21k
Designing for Performance
lara
605
69k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Designing Experiences People Love
moore
140
23k
Become a Pro
speakerdeck
PRO
26
5.2k
Transcript
None
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka
・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
自己紹介 ©Blueish 2024. All rights reserved. AWS認定(1月から開始)
会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ
設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 システム開発事業 Omni Workspace事業 サーバー最適化支援事業 資本金 1億4338万円
01 データ準備の全体像 02 Google Cloudでのデータ準備アプローチ 03 AWS SageMaker AI Ground
Truthとの比較 04 まとめ 目次 ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - 機械学習を触ってないけど、概要を掴んでおきたい - Google Cloud
/ AWS でどうやってラベリングをするのか知っておきたい 細かい説明は除き、大枠を掴めるような構成となっています。 対象
01 データ準備の全体像 ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - 機械学習プロジェクトの成功は「データの質」に依存する - ラベリングは、正確なモデル学習・評価の基盤 -
Garbage in, garbage out(ゴミを入れてもゴミが出てくるだけ) - データラベリングは主に教師あり学習において必要不可欠 データラベリングの重要性 データ準備の全体像 ネコ
©Blueish 2024. All rights reserved. Data Collection (データ収集) - 生データをさまざまなソースから取得
Data Preprocessing (データ前処理) - ノイズ除去,正規化などの処理を行い、クリーンなデータを作成 Data Labeling (データラベリング) - 正解ラベルを付与することで、後続のモデル学習の品質を向上 Model Training/Evaluation (モデルの学習/評価) - ラベル付きデータを用いてモデルを学習させ、 評価指標に基づいてパフォーマンスを確認 Deployment (デプロイメント) - 学習済みモデルを実際の運用環境へ展開 Feedback Loop (フィードバックループ) - モデルの評価結果や運用上の課題をもとに、 データ収集・前処理、ラベリングの工程へフィードバック MLパイプラインにおけるラベリングの位置づけ データ準備の全体像
©Blueish 2024. All rights reserved. 主な課題: - スケーラビリティと精度の両立 - コスト・運用面(人力
vs 自動) - タスク管理と品質管理の仕組み 公式リソース参考: - 各社のMLパイプラインのベストプラクティス資料 (Google CloudのML Pipeline Documentationなど) ラベリングの課題と考慮点 データ準備の全体像
02 Google Cloudでの データ準備アプローチ ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. Vertex AI Data Labeling Service(非推奨):
- 2024年10月3日以降使用不可 - 対象データ: 画像、テキスト、ビデオなど多様なデータに対応 - ラベリング作業をGoogle Cloudの担当者に依頼 Google CloudエコシステムとVertex AI Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. 分類: - JPEG,GIF,PNG,BMP,ICO 形式 (トレーニングデータ)
- 最大サイズは 30 MB - ラベルごとに約 1,000 個のトレーニング画像をおすすめ オブジェクト検出: - JPEG,GIF,PNG,BMP,ICO 形式 - 最大サイズは 30 MB - 推奨サイズ 1024 x 1024 ピクセル以下 - ラベルごとに約 1,000 個のアノテーションを使用することをおすすめ データの準備 Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. データセットの作成 Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. データセットの作成(画像) Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. データセットの作成 Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. データセットの作成 Google Cloudでのデータ準備アプローチ
©Blueish 2024. All rights reserved. ラベルが付かなかった場合は、手動で付与 Google Cloudでのデータ準備アプローチ
03 AWS SageMaker AI Ground Truthの紹介 ©Blueish 2024. All rights
reserved.
©Blueish 2024. All rights reserved. - ラベリングアプリケーションを構築したり、ラベリング担当者を管理したりするこ となく、高品質のトレーニングデータセットを作成できる - 教師データを効率良く作成するアノテーションツール/サービス
AWS SageMaker AI Ground Truthの概要 AWS SageMaker AI Ground Truthとの比較
©Blueish 2024. All rights reserved. AWS SageMaker AI Ground Truthとの比較
1. S3にオブジェクトを格納
AWS SageMaker AI Ground Truthとの比較 2. jobを作成(今回はTurkを使用)
©Blueish 2024. All rights reserved. AWS SageMaker AI Ground Truthとの比較
3. (option) ワーカーとして作業する
©Blueish 2024. All rights reserved. AWS SageMaker AI Ground Truthとの比較
4. タスクの完了
©Blueish 2024. All rights reserved. AWS SageMaker AI Ground Truthとの比較
5. ラベルの確認
©Blueish 2024. All rights reserved. - 機能差が大きくあるわけではない - 他のタスクとの兼ね合いや使用しているStorageに依存 -
手動でのラベリングはAWS(Turk)が使える Ground Truthとの比較 AWS SageMaker AI Ground Truthとの比較
04 まとめ ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど -
ラベルづけ, 正解データにはAWSを使用してTurk経由で依頼が楽かも - Cloud Storage, BigQueryを使っている/使いたい場合はVertex AI - JSONLで作成したメタデータを取り込むことも可能なため、このプラットフォーム 上で全てを完結させる必要はない まとめ
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.