Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMaker Ground Truthでトレーニングデータセットを構築する
Search
Shota Totsuka
January 17, 2025
0
40
SageMaker Ground Truthでトレーニングデータセットを構築する
Shota Totsuka
January 17, 2025
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
HITL実装によるマルチエージェント組織の設計パターン
totsukash
0
11
Claude Codeの知らない知識に立ち向かう
totsukash
1
560
Claude Codeの知らない知識、ADK, A2Aを用いた プロダクト開発をClaude Codeで行う
totsukash
0
850
Claude Code で Vibe Coding
totsukash
1
18
MCP, A2Aをプロダクトに組み込んで 開発している話
totsukash
1
16
Mastra活用|Text-to-SQLの実装と応用
totsukash
1
200
Bedrockでのプロンプト管理戦略
totsukash
3
170
Amazon SageMaker AIでモデル開発からデプロイまで試す
totsukash
2
54
Amazon CodeGuruをGitHubと統合して アプリケーションの品質管理を楽にする
totsukash
0
22
Featured
See All Featured
Ruling the World: When Life Gets Gamed
codingconduct
0
140
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Automating Front-end Workflow
addyosmani
1371
200k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
130
Balancing Empowerment & Direction
lara
5
880
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.9k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
72
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
55
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
160
sira's awesome portfolio website redesign presentation
elsirapls
0
140
Transcript
SageMaker Ground Truthで トレーニングデータセットを構築する 2025.01.17 ©Blueish 2024. All rights reserved.
戸塚 翔太
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka
・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
01 SageMaker Ground Truth とは 02 ユースケース・メリット 03 使ってみる 04
まとめ 目次 ©Blueish 2024. All rights reserved.
会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ
設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 ・WEBシステム開発 ・スマートフォンアプリケーション開発 資本金 10,000,000円
01 SageMaker Ground Truth とは ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - ラベリングアプリケーションを構築したり、ラベリング担当者を管理したりするこ となく、高品質のトレーニングデータセットを作成できる - 教師データを効率良く作成するアノテーションツール/サービス
概要 SageMaker Ground Truth とは
©Blueish 2024. All rights reserved. 画面 SageMaker Ground Truth とは
02 ユースケース・メリット ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - 例とデモンストレーションデータ - ある質問に対する回答: 「日本の首都は?」→「東京」
- 比較とランキングデータ - 同じ質問に対する複数の回答を比較/ランク付けする - 評価とレッドチーム - 脆弱性の発見、偏りの軽減、毒性の排除を可能にする - データラベリング - テキスト、画像、動画、音声、点群にラベルを付ける ユースケース ユースケース・メリット
©Blueish 2024. All rights reserved. - 人間が生成したデータを取得 - 人間が生成したデータを取得して、特定のタスクに合わせたり、企業や業界固有のデータを使用してモ デルをカスタマイズしたりできます
- モデルの評価 - 人間による評価を利用して、ユースケースに最適な基盤モデル (FM) を比較して選択してください - 高品質なデータセットの作成 - 専門家によるオンデマンドスタッフによる高品質なトレーニングデータセットの作成により、モデルの 精度を向上させます - ヒューマンインザループタスクを高速化 - コストを削減しながら、データ生成や注釈付けからモデルのレビュー、カスタマイズ、評価まで、 ヒューマンインザループタスクを加速および自動化します メリット ユースケース・メリット
03 使ってみる ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. 使ってみる 1. S3にオブジェクトを格納
使ってみる 2. jobを作成(今回はTurkを使用)
©Blueish 2024. All rights reserved. 使ってみる 3. (option) ワーカーとして作業する
©Blueish 2024. All rights reserved. 使ってみる 4. タスクの完了
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルの確認
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルデータの確認(JSONL)
04 まとめ ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど -
ラベルづけ, 正解データにはここを使用してTurk経由で依頼が楽かも - 今回は少数枚数だったので手作業の方が使い勝手が良いが、枚数が増えると使わざ るを得ないサービスのため、キャッチアップをしておくと良いかも まとめ
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.