Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMaker Ground Truthでトレーニングデータセットを構築する
Search
Shota Totsuka
January 17, 2025
0
28
SageMaker Ground Truthでトレーニングデータセットを構築する
Shota Totsuka
January 17, 2025
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
Mastra活用|Text-to-SQLの実装と応用
totsukash
0
95
Bedrockでのプロンプト管理戦略
totsukash
3
130
Amazon SageMaker AIでモデル開発からデプロイまで試す
totsukash
2
42
Amazon CodeGuruをGitHubと統合して アプリケーションの品質管理を楽にする
totsukash
0
14
AWS Glueで始めるETLパイプライン
totsukash
0
21
Bedrockでガードレールのフィルターを理解する
totsukash
1
65
Amazon Novaを使用した蒸留
totsukash
2
85
SageMaker AIワークフローのあれこれ紹介
totsukash
1
71
Vertex AIで画像分類タスクのデータセットを準備する
totsukash
0
44
Featured
See All Featured
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
137
33k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
It's Worth the Effort
3n
184
28k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Product Roadmaps are Hard
iamctodd
PRO
53
11k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
5
600
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Optimizing for Happiness
mojombo
378
70k
Rails Girls Zürich Keynote
gr2m
94
13k
Transcript
SageMaker Ground Truthで トレーニングデータセットを構築する 2025.01.17 ©Blueish 2024. All rights reserved.
戸塚 翔太
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka
・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
01 SageMaker Ground Truth とは 02 ユースケース・メリット 03 使ってみる 04
まとめ 目次 ©Blueish 2024. All rights reserved.
会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ
設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 ・WEBシステム開発 ・スマートフォンアプリケーション開発 資本金 10,000,000円
01 SageMaker Ground Truth とは ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - ラベリングアプリケーションを構築したり、ラベリング担当者を管理したりするこ となく、高品質のトレーニングデータセットを作成できる - 教師データを効率良く作成するアノテーションツール/サービス
概要 SageMaker Ground Truth とは
©Blueish 2024. All rights reserved. 画面 SageMaker Ground Truth とは
02 ユースケース・メリット ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - 例とデモンストレーションデータ - ある質問に対する回答: 「日本の首都は?」→「東京」
- 比較とランキングデータ - 同じ質問に対する複数の回答を比較/ランク付けする - 評価とレッドチーム - 脆弱性の発見、偏りの軽減、毒性の排除を可能にする - データラベリング - テキスト、画像、動画、音声、点群にラベルを付ける ユースケース ユースケース・メリット
©Blueish 2024. All rights reserved. - 人間が生成したデータを取得 - 人間が生成したデータを取得して、特定のタスクに合わせたり、企業や業界固有のデータを使用してモ デルをカスタマイズしたりできます
- モデルの評価 - 人間による評価を利用して、ユースケースに最適な基盤モデル (FM) を比較して選択してください - 高品質なデータセットの作成 - 専門家によるオンデマンドスタッフによる高品質なトレーニングデータセットの作成により、モデルの 精度を向上させます - ヒューマンインザループタスクを高速化 - コストを削減しながら、データ生成や注釈付けからモデルのレビュー、カスタマイズ、評価まで、 ヒューマンインザループタスクを加速および自動化します メリット ユースケース・メリット
03 使ってみる ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. 使ってみる 1. S3にオブジェクトを格納
使ってみる 2. jobを作成(今回はTurkを使用)
©Blueish 2024. All rights reserved. 使ってみる 3. (option) ワーカーとして作業する
©Blueish 2024. All rights reserved. 使ってみる 4. タスクの完了
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルの確認
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルデータの確認(JSONL)
04 まとめ ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど -
ラベルづけ, 正解データにはここを使用してTurk経由で依頼が楽かも - 今回は少数枚数だったので手作業の方が使い勝手が良いが、枚数が増えると使わざ るを得ないサービスのため、キャッチアップをしておくと良いかも まとめ
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.