Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMaker Ground Truthでトレーニングデータセットを構築する
Search
Shota Totsuka
January 17, 2025
0
37
SageMaker Ground Truthでトレーニングデータセットを構築する
Shota Totsuka
January 17, 2025
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
HITL実装によるマルチエージェント組織の設計パターン
totsukash
0
5
Claude Codeの知らない知識に立ち向かう
totsukash
1
320
Claude Codeの知らない知識、ADK, A2Aを用いた プロダクト開発をClaude Codeで行う
totsukash
0
390
Claude Code で Vibe Coding
totsukash
1
9
MCP, A2Aをプロダクトに組み込んで 開発している話
totsukash
1
10
Mastra活用|Text-to-SQLの実装と応用
totsukash
1
170
Bedrockでのプロンプト管理戦略
totsukash
3
160
Amazon SageMaker AIでモデル開発からデプロイまで試す
totsukash
2
52
Amazon CodeGuruをGitHubと統合して アプリケーションの品質管理を楽にする
totsukash
0
18
Featured
See All Featured
Agile that works and the tools we love
rasmusluckow
331
21k
Facilitating Awesome Meetings
lara
57
6.6k
Building an army of robots
kneath
306
46k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3k
The Pragmatic Product Professional
lauravandoore
36
7k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Leading Effective Engineering Teams in the AI Era
addyosmani
8
1.2k
It's Worth the Effort
3n
187
29k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
Code Reviewing Like a Champion
maltzj
527
40k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Transcript
SageMaker Ground Truthで トレーニングデータセットを構築する 2025.01.17 ©Blueish 2024. All rights reserved.
戸塚 翔太
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka
・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
01 SageMaker Ground Truth とは 02 ユースケース・メリット 03 使ってみる 04
まとめ 目次 ©Blueish 2024. All rights reserved.
会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ
設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 ・WEBシステム開発 ・スマートフォンアプリケーション開発 資本金 10,000,000円
01 SageMaker Ground Truth とは ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - ラベリングアプリケーションを構築したり、ラベリング担当者を管理したりするこ となく、高品質のトレーニングデータセットを作成できる - 教師データを効率良く作成するアノテーションツール/サービス
概要 SageMaker Ground Truth とは
©Blueish 2024. All rights reserved. 画面 SageMaker Ground Truth とは
02 ユースケース・メリット ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - 例とデモンストレーションデータ - ある質問に対する回答: 「日本の首都は?」→「東京」
- 比較とランキングデータ - 同じ質問に対する複数の回答を比較/ランク付けする - 評価とレッドチーム - 脆弱性の発見、偏りの軽減、毒性の排除を可能にする - データラベリング - テキスト、画像、動画、音声、点群にラベルを付ける ユースケース ユースケース・メリット
©Blueish 2024. All rights reserved. - 人間が生成したデータを取得 - 人間が生成したデータを取得して、特定のタスクに合わせたり、企業や業界固有のデータを使用してモ デルをカスタマイズしたりできます
- モデルの評価 - 人間による評価を利用して、ユースケースに最適な基盤モデル (FM) を比較して選択してください - 高品質なデータセットの作成 - 専門家によるオンデマンドスタッフによる高品質なトレーニングデータセットの作成により、モデルの 精度を向上させます - ヒューマンインザループタスクを高速化 - コストを削減しながら、データ生成や注釈付けからモデルのレビュー、カスタマイズ、評価まで、 ヒューマンインザループタスクを加速および自動化します メリット ユースケース・メリット
03 使ってみる ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. 使ってみる 1. S3にオブジェクトを格納
使ってみる 2. jobを作成(今回はTurkを使用)
©Blueish 2024. All rights reserved. 使ってみる 3. (option) ワーカーとして作業する
©Blueish 2024. All rights reserved. 使ってみる 4. タスクの完了
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルの確認
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルデータの確認(JSONL)
04 まとめ ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど -
ラベルづけ, 正解データにはここを使用してTurk経由で依頼が楽かも - 今回は少数枚数だったので手作業の方が使い勝手が良いが、枚数が増えると使わざ るを得ないサービスのため、キャッチアップをしておくと良いかも まとめ
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.