Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWS Glue Data Quality(プレビュー)が機械学習システムに使えそうか調べてみるぞ!
Search
Nayuta S.
February 13, 2023
Technology
1.4k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AWS Glue Data Quality(プレビュー)が機械学習システムに使えそうか調べてみるぞ!
Nayuta S.
February 13, 2023
More Decks by Nayuta S.
See All by Nayuta S.
今年注目する!データ分析プラットフォームでのAIの活用
nayuts
0
200
AIを活用したStreamlitアプリ開発のTipsと、ほかのAI機能との棲み分け
nayuts
0
640
今年のデータ・ML系アップデートと気になるアプデのご紹介
nayuts
1
2k
Snowflakeで実践する、生成AIを活用した「自然言語によるデータとの対話」
nayuts
0
550
Snowflakeの生成AI機能を活用したデータ分析アプリの作成 〜Cortex AnalystとCortex Searchの活用とStreamlitアプリでの利用〜
nayuts
1
1.7k
FastMCPでSQLをチェックしてくれるMCPサーバーを自作してCursorから動かしてみた
nayuts
1
790
Amazon Athenaから利用時のGlueのIcebergテーブルのメンテナンスについて
nayuts
0
790
目玉アップデート!のSageMaker LakehouseとUnified Studioは何たるかを見てみよう!
nayuts
0
1.5k
Amazon Rekognitionのカスタムモデルで独自のモデレーションモデルをトレーニングする
nayuts
0
450
Other Decks in Technology
See All in Technology
Chainlitで作るお手軽チャットUI
ynt0485
0
200
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
4
2.2k
白金鉱業Meetup_Vol.24_「AIエージェントは分けるほど良い」は本当か? / Is it true that “the more you divide AI agents, the better”?
brainpadpr
1
300
Claude Codeをどのように キャッチアップしているか
oikon48
9
4.8k
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
130
Snowflakeと仲良くなる第一歩
coco_se
4
430
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
120
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
170
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
820
AmazonRoute 53ではじめてのドメイン取得!HTTPS化までの道のりを整理してみた
usanchuu
3
130
protovalidate-es を導入してみた
bengo4com
0
170
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
810
Featured
See All Featured
Abbi's Birthday
coloredviolet
2
8k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
380
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.9k
sira's awesome portfolio website redesign presentation
elsirapls
0
280
Optimizing for Happiness
mojombo
378
71k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
570
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
170
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
420
VelocityConf: Rendering Performance Case Studies
addyosmani
333
25k
Transcript
AWS Glue Data Quality(プレビュー)が 機械学習システムに使えそうか調べてみるぞ︕ 2023/2/12 鈴⽊ 那由太 1
名前︓鈴⽊ 那由太(スズキ ナユタ) 所属︓クラスメソッド株式会社 データアナリティクス事業本部 仕事︓データ分析基盤構築 ほか︓2022 APN AWS Top
Engineer kaggle Notebooks Master 2 ⾃⼰紹介
• 今⽇の発表について • データドリフト • AWS Glueとは︖ • AWS Glue
Data Quality(プレビュー)とは︖ • AWS Glue Data Qualityに登場する概念や使い⽅についてご紹介 • 機械学習システムでこんな感じに使えそう • まとめ 3 もくじ
4 今⽇の発表について • AWS Glue Data Quality(ないしDeequ)にて利⽤できる、機械学習で活⽤する データ品質のチェック機能について確認する。 • AWS
Glue Data Qualityの利⽤イメージを掴む。 • AWS Glue Data Qualityを使った機械学習システムでの品質管理の構成について検 討・考察する。
5 σʔλυϦϑτʹ͍ͭͯ ※『"NB[PO4BHF.BLFS .PEFM.POJUPSΛ׆༻ͨ͠σʔλυϦϑτݕͷղઆʱΑΓʹൈਮ https://aws.amazon.com/jp/blogs/news/detect-data-drift-with-amazon-sagemaker-model-monitor/ データドリフト︓ਪ࣌ͷೖྗσʔλग़ྗ݁Ռ͕ɺֶश࣌ͷڐ༰ൣғΛ͑ͯมԽ͢Δ͜ͱ。 (今回の発表では※の定義に準ずる)
6 AWS Glueとは︖ AWS の提供するサーバーレスなデータ統合サービス。 データ分析・機械学習・アプリケーション開発⽤に、複数のデータソースからデータを検出・準備・移動・ 統合することを⽬的とする。 機械学習システムの場合、データの前処理などに使うことができる。 「 ETLジョブ(Sparkジョブ・Pythonシェルジョブ)」「データカタログ(データベース・テーブル)」
「クローラー」「Glue Studio」など様々な機能を提供している。 イベント駆動型ETLより引⽤ https://aws.amazon.com/jp/glue/
7 AWS Glue Data Quality(プレビュー)とは︖ データ品質管理とモニタリングより引⽤ https://aws.amazon.com/jp/glue/ AWS Glueのネイティブなデータ品質の管理機能。AWSの開発したOSSであるDeequによるデータ品質チェック を、
AWS Glueのサーバレスかつマネージドな環境上で⾮常に簡単に実⾏できる。 データを取り込んだ後の品質チェック(リアクティブ)だけでなく、データを取り込む際の品質チェック(プ ロアクティブ)に対応しているのが特に良いところ。AWS Python SDKから利⽤することも可能。
8 Deequについて ※ DeequのGitHubレポジトリより2023/2/5に抜粋 https://github.com/awslabs/deequ Sparkをエンジンとして⼤規模なデータに対してデータ品質のチェックが実⾏できる。 後ほど紹介する『"NB[PO4BHF.BLFS .PEFM.POJUPSΛ׆༻ͨ͠σʔλυϦϑτݕͷղઆʱͰ σʔλυϦϑτͷνΣοΫʹར༻͢Δྫ͕հ͞ΕΔɻ
9 Data Quality Definition Language (DQDL) ※Data Quality Definition Language
(DQDL)から2023/2/5に引⽤。 https://docs.amazonaws.cn/en_us/glue/latest/dg/dqdl.html ITエンジニア・ビジネス問わず、多くのユーザーが利⽤できるように作成された定義⾔語。 SQLを記述することも可能。 ▼ColumnCorrelationの⽂法例 ▼ルールセットの⽣成結果の例 ←Iris Data Set(https://archive.ics.uci.edu/ml/datasets/iris)より Glue Data Qualityで⽣成したもの
10 σʔλυϦϑτݕ ※『"NB[PO4BHF.BLFS .PEFM.POJUPSΛ׆༻ͨ͠σʔλυϦϑτݕͷղઆʱΑΓʹൈਮ https://aws.amazon.com/jp/blogs/news/detect-data-drift-with-amazon-sagemaker-model-monitor/ この発表時点で、AWS Glue Data Qualityは下記表のうち、Deequで可能な「基本的な統計情報」を計測できる。 ほかのサービスと組み合わせてサンプリングすれば「スケッチ(分位スケッチ)」も可能ではある。
11 AWS Glue Data Qualityによるデータ品質チェック ルールセットの ⽣成 ルールセットの修正 (必要なら) データ品質の評
価
12 Pythonからの利⽤ Boto3からAWS Glue Data QualityのAPIが利⽤できることはドキュメントから確認できた。 品質チェックはGlueのテーブルを指定して⾏うため、どちらかというとリアクティブ的な⽤途となりそう。 リアクティブな⽤途だと、ステージング⽤のテーブルを⽤意しておき、⼀旦そこで品質チェックを挟むことで に使えそう。 Boto3
Docs 1.26.63 documentationより https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/glue.html •create_data_quality_ruleset() •delete_data_quality_ruleset() •get_data_quality_rule_recommendation_run() •start_data_quality_rule_recommendation_run() •start_data_quality_ruleset_evaluation_run() •など
13 機械学習システムでこんな感じに使えそう ※Data Quality Definition Language (DQDL)を2023/2/5時点に参考にしました。 https://docs.aws.amazon.com/glue/latest/dg/data-quality-authorization.html # DQDL
rule type 概要 1 ColumnCorrelation 2つの特徴量の間の相関を調べる。 2 Mean ある特徴量の平均を調べる。 3 StandardDeviation ある特徴量の標準偏差を調べる。 4 Sum ある特徴量の和を調べる。 5 IsComplete ある特徴量が全てNULLではないか調べる。 6 DistinctValuesCount ある特徴量のユニークな値の数を調べる。 7 CustomSql ある特徴量について集計⽤のSQLロジックを適⽤できる。 発表時点で18の種類があるが、基本的な統計情報の計算として特に使えそうなルールについて取り上げる。 より詳しくはドキュメントを参考にして頂きたい。
14 機械学習システムでこんな感じに使えそう 時系列予測機能 (Amazon Forecast) 推薦機能 (Amazon Personalize) 機械学習機能 (Amazon
SageMaker・Batchなど) ΦϒδΣΫτετϨʔδ (Amazon S3) データ品質管理 (AWS Glue) データウェアハウス・機械学習機能 (Amazon Redshift) 学習・推論対象のデータ AWS Cloud 品質チェック
15 AWS Glueコンソールからの使⽤例 https://dev.classmethod.jp/articles/aws-glue-data-quality-preview-with-iam-role-from-glue-console/ ⼀番簡単な試し⽅・必要な権限設定について記載しました。
16 まとめ • AWS Glue Data Qualityはデータ品質の管理のためのOSSであるDeequをサーバレス かつマネージドな環境で実⾏ができる。 • 「基本的な統計情報」によりデータドリフトの検出に活⽤できる。
• オブジェクトストレージ(Amazon S3)に対して利⽤でき、AWS上で機械学習シ ステムを構築する際に強⼒にデータのチェックが可能になる。