Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMaker Ground Truthでトレーニングデータセットを構築する
Search
Shota Totsuka
January 17, 2025
0
29
SageMaker Ground Truthでトレーニングデータセットを構築する
Shota Totsuka
January 17, 2025
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
Mastra活用|Text-to-SQLの実装と応用
totsukash
0
110
Bedrockでのプロンプト管理戦略
totsukash
3
140
Amazon SageMaker AIでモデル開発からデプロイまで試す
totsukash
2
42
Amazon CodeGuruをGitHubと統合して アプリケーションの品質管理を楽にする
totsukash
0
14
AWS Glueで始めるETLパイプライン
totsukash
0
22
Bedrockでガードレールのフィルターを理解する
totsukash
1
67
Amazon Novaを使用した蒸留
totsukash
2
87
SageMaker AIワークフローのあれこれ紹介
totsukash
1
71
Vertex AIで画像分類タスクのデータセットを準備する
totsukash
0
48
Featured
See All Featured
Writing Fast Ruby
sferik
628
61k
Documentation Writing (for coders)
carmenintech
71
4.8k
Statistics for Hackers
jakevdp
799
220k
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.3k
Visualization
eitanlees
146
16k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
Designing Experiences People Love
moore
142
24k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
14
1.5k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Transcript
SageMaker Ground Truthで トレーニングデータセットを構築する 2025.01.17 ©Blueish 2024. All rights reserved.
戸塚 翔太
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka
・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
01 SageMaker Ground Truth とは 02 ユースケース・メリット 03 使ってみる 04
まとめ 目次 ©Blueish 2024. All rights reserved.
会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ
設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 ・WEBシステム開発 ・スマートフォンアプリケーション開発 資本金 10,000,000円
01 SageMaker Ground Truth とは ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - ラベリングアプリケーションを構築したり、ラベリング担当者を管理したりするこ となく、高品質のトレーニングデータセットを作成できる - 教師データを効率良く作成するアノテーションツール/サービス
概要 SageMaker Ground Truth とは
©Blueish 2024. All rights reserved. 画面 SageMaker Ground Truth とは
02 ユースケース・メリット ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - 例とデモンストレーションデータ - ある質問に対する回答: 「日本の首都は?」→「東京」
- 比較とランキングデータ - 同じ質問に対する複数の回答を比較/ランク付けする - 評価とレッドチーム - 脆弱性の発見、偏りの軽減、毒性の排除を可能にする - データラベリング - テキスト、画像、動画、音声、点群にラベルを付ける ユースケース ユースケース・メリット
©Blueish 2024. All rights reserved. - 人間が生成したデータを取得 - 人間が生成したデータを取得して、特定のタスクに合わせたり、企業や業界固有のデータを使用してモ デルをカスタマイズしたりできます
- モデルの評価 - 人間による評価を利用して、ユースケースに最適な基盤モデル (FM) を比較して選択してください - 高品質なデータセットの作成 - 専門家によるオンデマンドスタッフによる高品質なトレーニングデータセットの作成により、モデルの 精度を向上させます - ヒューマンインザループタスクを高速化 - コストを削減しながら、データ生成や注釈付けからモデルのレビュー、カスタマイズ、評価まで、 ヒューマンインザループタスクを加速および自動化します メリット ユースケース・メリット
03 使ってみる ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. 使ってみる 1. S3にオブジェクトを格納
使ってみる 2. jobを作成(今回はTurkを使用)
©Blueish 2024. All rights reserved. 使ってみる 3. (option) ワーカーとして作業する
©Blueish 2024. All rights reserved. 使ってみる 4. タスクの完了
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルの確認
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルデータの確認(JSONL)
04 まとめ ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど -
ラベルづけ, 正解データにはここを使用してTurk経由で依頼が楽かも - 今回は少数枚数だったので手作業の方が使い勝手が良いが、枚数が増えると使わざ るを得ないサービスのため、キャッチアップをしておくと良いかも まとめ
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.