Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SageMaker Ground Truthでトレーニングデータセットを構築する

Avatar for Shota Totsuka Shota Totsuka
January 17, 2025
28

SageMaker Ground Truthでトレーニングデータセットを構築する

Avatar for Shota Totsuka

Shota Totsuka

January 17, 2025
Tweet

More Decks by Shota Totsuka

Transcript

  1. 自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka

    ・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます  近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
  2. 会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ

    設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 ・WEBシステム開発 ・スマートフォンアプリケーション開発 資本金 10,000,000円
  3. ©Blueish 2024. All rights reserved. - 例とデモンストレーションデータ - ある質問に対する回答: 「日本の首都は?」→「東京」

    - 比較とランキングデータ - 同じ質問に対する複数の回答を比較/ランク付けする - 評価とレッドチーム - 脆弱性の発見、偏りの軽減、毒性の排除を可能にする - データラベリング - テキスト、画像、動画、音声、点群にラベルを付ける ユースケース ユースケース・メリット
  4. ©Blueish 2024. All rights reserved. - 人間が生成したデータを取得 - 人間が生成したデータを取得して、特定のタスクに合わせたり、企業や業界固有のデータを使用してモ デルをカスタマイズしたりできます

    - モデルの評価 - 人間による評価を利用して、ユースケースに最適な基盤モデル (FM) を比較して選択してください - 高品質なデータセットの作成 - 専門家によるオンデマンドスタッフによる高品質なトレーニングデータセットの作成により、モデルの 精度を向上させます - ヒューマンインザループタスクを高速化 - コストを削減しながら、データ生成や注釈付けからモデルのレビュー、カスタマイズ、評価まで、 ヒューマンインザループタスクを加速および自動化します メリット ユースケース・メリット
  5. ©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど -

    ラベルづけ, 正解データにはここを使用してTurk経由で依頼が楽かも - 今回は少数枚数だったので手作業の方が使い勝手が良いが、枚数が増えると使わざ るを得ないサービスのため、キャッチアップをしておくと良いかも まとめ