Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アノテーション支援サービス / Amazon SageMaker Ground Truth
Search
kazuya iwami
July 01, 2019
Technology
0
210
アノテーション支援サービス / Amazon SageMaker Ground Truth
アノテーション支援サービスであるAmazon SageMaker Ground Truthの概要を解説した際の資料です
kazuya iwami
July 01, 2019
Tweet
Share
More Decks by kazuya iwami
See All by kazuya iwami
N=1から解き明かすAWS ソリューションアーキテクトの魅力
kiiwami
0
130
BIT VALLEY 2020 数千人規模の顔認証受付サービス、一ヶ月で構築できますか?
kiiwami
0
100
Other Decks in Technology
See All in Technology
MC906491 を見据えた Microsoft Entra Connect アップグレード対応
tamaiyutaro
1
540
2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するための計画と実行 / Algomatic 宮脇
smiyawaki0820
12
3.1k
データの品質が低いと何が困るのか
kzykmyzw
6
1.1k
なぜ私は自分が使わないサービスを作るのか? / Why would I create a service that I would not use?
aiandrox
0
710
2.5Dモデルのすべて
yu4u
2
840
「海外登壇」という 選択肢を与えるために 〜Gophers EX
logica0419
0
700
速くて安いWebサイトを作る
nishiharatsubasa
10
12k
Amazon S3 Tablesと外部分析基盤連携について / Amazon S3 Tables and External Data Analytics Platform
nttcom
0
130
次世代KYC活動報告 / 20250219-BizDay17-KYC-nextgen
oidfj
0
250
転生CISOサバイバル・ガイド / CISO Career Transition Survival Guide
kanny
3
960
OpenID Connect for Identity Assurance の概要と翻訳版のご紹介 / 20250219-BizDay17-OIDC4IDA-Intro
oidfj
0
270
Helm , Kustomize に代わる !? 次世代 k8s パッケージマネージャー Glasskube 入門 / glasskube-entry
parupappa2929
0
250
Featured
See All Featured
Unsuck your backbone
ammeep
669
57k
Gamification - CAS2011
davidbonilla
80
5.1k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Rails Girls Zürich Keynote
gr2m
94
13k
Code Review Best Practice
trishagee
67
18k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Thoughts on Productivity
jonyablonski
69
4.5k
Automating Front-end Workflow
addyosmani
1368
200k
Docker and Python
trallard
44
3.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Transcript
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. アノテーション⽀援サービス Amazon SageMaker Ground Truth Kazuya Iwami Solutions Architect Amazon Web Services Japan K.K.
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベル付きデータ 準備 独⾃のデータを利⽤した機械学習の流れ ⼤量の⾼品質な ラベル付けが重要
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベル付きデータ 準備 アノテーション(データへのラベル付け)にはコスト・時間がかかる • 進捗管理・作業割り振り • 効率の良いラベリングツールの作成 • 作業を割り当てるワーカーの募集 • これらを⽤意した上で数万個のデータへのラベル付け… 独⾃のデータを利⽤した機械学習の流れ これらの課題を解決するのが Amazon SageMaker Ground Truth
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. Ground Truth 利⽤のワークフロー Amazon SageMaker Ground Truth S3 S3 Amazon SageMaker 複数⼈の 結果をマージ ビルトインアルゴリズムを そのまま適応可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みラベリングツールの利⽤も 独⾃実装も可能 カスタム
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 物体検出⽤ラベリングツールの画⾯例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ワーカーは以下の3種類から選択可能 パブリック • クラウドソーシングサービスの Amazon Mechanical Turk を利⽤ • ⾮⾔語依存で機密性の低いタスク向き プライベート • 友⼈や社員をワーカーとして登録出来る • 機密性の⾼いタスク向き • ワーカーの管理にCognitoを利⽤(SAMLでの連携も可) ベンダー • SageMaker Ground Truthに登録済みの アノテーション専⾨ベンダーに依頼
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリング データの⼀部をワーカーがラベル付けするだけで、 残りのラベル付けが⾃動化され、時間とコストを⼤幅に削減 アノテーション済み データ ※ 5000データ以上の⼤規模データセットに対して利⽤可能なオプション機能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 価格と提供リージョン 価格 • ラベル付けした対象の数に応じた利⽤料 $0.08 / 個 (5万個以上はより安価) • Amazon Mechanical Turk および 外部ベンダを利⽤する際の利⽤料 • ⾃動ラベリング利⽤時は、裏で動くSageMakerの学習/推論の利⽤料 提供リージョン • バージニア北部 / オレゴン / オハイオ / アイルランド / 東京
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. お客様事例 • テキスト分析 • 精密農業 • 製造業の効率化 • ⾃動運転 • 在庫の⽬録作成
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールを利⽤する 場合の⼀例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 準備 • アノテーションする画像と結果を保存するS3バケットを⽤意 • アノテーション対象の画像群をS3バケットに保存 (テキスト分類の場合は複数の⽂章が書かれた txt/csv ファイルを⽤意) • 画像群のパスを記述したマニフェストファイルを作成し、S3バケットに保存 (マニフェストファイルは⾃動⽣成機能あり)
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 基本情報を設定 • ジョブ名 • マニフェストファイルの場所 (ここで⾃動作成も可能) • 結果の保存場所 • IAMロール
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 タスクの種類を選択 • 画像分類 • 物体検出 • セマンティックセグメンテーション • テキスト分類 • ユーザ定義のカスタムタスク
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 作業をアサインするワーカーを指定 • ワーカーの種類を選択 • Public (Amazon Mechanical Turk) • Private (社内でアノテーション) • ベンダー • 追加の設定 • ⾃動ラベリングの有効化 • 1データにラベル付けするワーカーの数 ここではPrivateを選択し、数⼈のワーカーのメールアドレスを登録
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 ラベリングツールのテンプレートを修正 • タイトル • アノテーションの指⽰ • 説明 • タスクの詳細 • 良い/悪いアノテーション例など • ラベル
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ラベリングジョブの作成 これでジョブが作成され、数分後ワーカーの画⾯でジョブが選択可能になる ワーカーにはツールのURL・ユーザー名・⼀時パスワードがメールで送信される
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. まとめ Amazon SageMaker Ground Truth データにラベル (Ground Truth) を付与するアノテーション作業の⽀援サービス • アノテーションの⼀般的なワークフローをサポート • 4種類の組み込みラベリングツールを提供 • アノテーション作業を⾏うワーカーとの連携・管理機能を提供 • ⼤規模データセットに対しては⾃動ラベリング機能で最⼤70%のコスト削減 迅速なラベル付け ワーカーとの連携が容易 ⾼精度 New!
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 補⾜
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. その他 • Ground Truthでラベル付けされたデータは、拡張マニフェストファイル形式(JSON) でS3に保存される • アノテーションページのPrivate Linkは未対応 • アノテーション例として表⽰する画像は公開する必要がある (アノテーション対象の画像を公開する必要はない) • ジョブを作成した後にテンプレート等の内容は変更できないので注意 (新しいjobをcloneして対応) • タスクの割り振り量はワーカーごとに等分ではない。好きな量作業できる形式 • ワーカーごとに進捗確認する機能が必要な場合、現状作り込む必要あり • アノテーションを誰も⾏わない期間が10⽇ほど続くとjobがFailed状態となるため注意 ※ 2019年 4⽉ 時点での状況です ※ お客様からの要望に応じて、今後も様々な機能拡張が⾏われます
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールの使⽤例 bird bird
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. 組み込みのラベリングツールの使⽤例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート 前・後処理のLambda関数とラベリングツールのHTMLテンプレートを変更する ことで、様々なタスクに対応できる機能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート 前処理⽤Lambdaの作成 • ⼊⼒データの記述されたマニフェストファイルの各項⽬を読み込み、 それをテンプレートエンジンに返す処理を記述 HTMLテンプレート作成 • テンプレートエンジンのLiquidを採⽤ • 簡単なサンプルも多数⽤意されている 後処理⽤Lambda作成 • ワーカーが処理を終了した際の後処理を記述 ※ Lambdaはドキュメントのサンプルコードをベースに作成する必要あり HTMLテンプレートは多数のサンプルの中から選択できる
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート HTMLテンプレートのサンプル例
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. カスタムテンプレート アノテーション対象のデータ形式 • 画像、映像、⾳声、⽂章など様々なファイルをUIに表⽰できる • 複数のデータを扱うことも可能 (2画像の類似度推定等) ラベルの形式 • 既存テンプレートにあるラベル • 多クラス分類 • 画像のセマンティックセグメンテーション • 画像の物体検出(カスタムテンプレートであれば複数クラスも可能) • テキスト(画像に説明⽂を付与するなど) • 詳細はドキュメントに
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 前データ ⼀部のデータ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み ラベリング⽤ モデル アノテーション 前データ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.2 確信度: 0.9 アノテーション
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. ⾃動ラベリングの仕組み アノテーション 済みデータ ラベリング⽤ モデル アノテーション 前データ 確信度: 0.9 確信度: 0.2 アノテーション
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. プライベートなワーカーを追加する 「ラベリング労働⼒ > 新しいワーカーを招待 」から ワーカーのメールアドレスを追加可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する プライベートとの違いは以下の3つのみ • ジョブ作成時にワーカータイプ > パブリック を選択 • タスクあたりの料⾦を設定 • 確認項⽬にチェック
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する あとはワーカーがアサインされ、タスクが終了するのを待つだけ
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. パブリックなワーカーを利⽤する • タスクに対して設定する料⾦が安すぎると、 ⼈が集まらない場合やアノテーションの質が低下する場合あり • アノテーションの質を向上させるためには、タスクの説明⽂章の改善や、 1データにアノテーションするワーカーの数を増やすことで対応
© 2018, Amazon Web Services, Inc. or its Affiliates. All
rights reserved. bulldog sharpei bulldog bulldog 0.7 0.9 0.5 0.3 bulldog 0.1 sharpei 0.9 ラベルの決定 (Label Consolidation): 正答率による評価 正しい ラベルを 選ぶ確率 (犬に詳しい人) • ワーカーの信頼度の重みを付けた多数決によりラベルを決定 • 他のワーカーと異なる回答を頻繁にするワーカーは信頼度が下がる仕組み (ラベリングジョブごとにワーカーの信頼度は異なる)