Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWS Glue Data Quality(プレビュー)が機械学習システムに使えそうか調べてみるぞ!
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Nayuta S.
February 13, 2023
Technology
1.4k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AWS Glue Data Quality(プレビュー)が機械学習システムに使えそうか調べてみるぞ!
Nayuta S.
February 13, 2023
More Decks by Nayuta S.
See All by Nayuta S.
今年注目する!データ分析プラットフォームでのAIの活用
nayuts
0
200
AIを活用したStreamlitアプリ開発のTipsと、ほかのAI機能との棲み分け
nayuts
0
640
今年のデータ・ML系アップデートと気になるアプデのご紹介
nayuts
1
2k
Snowflakeで実践する、生成AIを活用した「自然言語によるデータとの対話」
nayuts
0
550
Snowflakeの生成AI機能を活用したデータ分析アプリの作成 〜Cortex AnalystとCortex Searchの活用とStreamlitアプリでの利用〜
nayuts
1
1.7k
FastMCPでSQLをチェックしてくれるMCPサーバーを自作してCursorから動かしてみた
nayuts
1
790
Amazon Athenaから利用時のGlueのIcebergテーブルのメンテナンスについて
nayuts
0
790
目玉アップデート!のSageMaker LakehouseとUnified Studioは何たるかを見てみよう!
nayuts
0
1.5k
Amazon Rekognitionのカスタムモデルで独自のモデレーションモデルをトレーニングする
nayuts
0
450
Other Decks in Technology
See All in Technology
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
2
590
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
820
2026.06.13_AI時代に事業会社が「SIer出身エンジニア」を求める理由 / Why Businesses Seek Engineers with a System Integrator Background in the AI Era
jumtech
0
1.1k
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
130
[モダンアプリ勉強会]今更聞けないGit/GitHub入門
tsukuboshi
0
370
DevOps Agentで始めるAWS運用 〜フロンティアエージェントが変える運用の現場〜
nyankotaro
1
380
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
820
LLMにもCAP定理があるという話
harukasakihara
0
300
RAG を使わないという選択肢
tatsutaka
1
190
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
210
Snowflakeと仲良くなる第一歩
coco_se
4
430
On-behalf-of Token exchange with AgentCore Identity
hironobuiga
2
150
Featured
See All Featured
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
320
From π to Pie charts
rasagy
0
210
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Evolving SEO for Evolving Search Engines
ryanjones
0
210
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
Producing Creativity
orderedlist
PRO
348
40k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.2k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
200
Darren the Foodie - Storyboard
khoart
PRO
3
3.4k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.7k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
400
Transcript
AWS Glue Data Quality(プレビュー)が 機械学習システムに使えそうか調べてみるぞ︕ 2023/2/12 鈴⽊ 那由太 1
名前︓鈴⽊ 那由太(スズキ ナユタ) 所属︓クラスメソッド株式会社 データアナリティクス事業本部 仕事︓データ分析基盤構築 ほか︓2022 APN AWS Top
Engineer kaggle Notebooks Master 2 ⾃⼰紹介
• 今⽇の発表について • データドリフト • AWS Glueとは︖ • AWS Glue
Data Quality(プレビュー)とは︖ • AWS Glue Data Qualityに登場する概念や使い⽅についてご紹介 • 機械学習システムでこんな感じに使えそう • まとめ 3 もくじ
4 今⽇の発表について • AWS Glue Data Quality(ないしDeequ)にて利⽤できる、機械学習で活⽤する データ品質のチェック機能について確認する。 • AWS
Glue Data Qualityの利⽤イメージを掴む。 • AWS Glue Data Qualityを使った機械学習システムでの品質管理の構成について検 討・考察する。
5 σʔλυϦϑτʹ͍ͭͯ ※『"NB[PO4BHF.BLFS .PEFM.POJUPSΛ׆༻ͨ͠σʔλυϦϑτݕͷղઆʱΑΓʹൈਮ https://aws.amazon.com/jp/blogs/news/detect-data-drift-with-amazon-sagemaker-model-monitor/ データドリフト︓ਪ࣌ͷೖྗσʔλग़ྗ݁Ռ͕ɺֶश࣌ͷڐ༰ൣғΛ͑ͯมԽ͢Δ͜ͱ。 (今回の発表では※の定義に準ずる)
6 AWS Glueとは︖ AWS の提供するサーバーレスなデータ統合サービス。 データ分析・機械学習・アプリケーション開発⽤に、複数のデータソースからデータを検出・準備・移動・ 統合することを⽬的とする。 機械学習システムの場合、データの前処理などに使うことができる。 「 ETLジョブ(Sparkジョブ・Pythonシェルジョブ)」「データカタログ(データベース・テーブル)」
「クローラー」「Glue Studio」など様々な機能を提供している。 イベント駆動型ETLより引⽤ https://aws.amazon.com/jp/glue/
7 AWS Glue Data Quality(プレビュー)とは︖ データ品質管理とモニタリングより引⽤ https://aws.amazon.com/jp/glue/ AWS Glueのネイティブなデータ品質の管理機能。AWSの開発したOSSであるDeequによるデータ品質チェック を、
AWS Glueのサーバレスかつマネージドな環境上で⾮常に簡単に実⾏できる。 データを取り込んだ後の品質チェック(リアクティブ)だけでなく、データを取り込む際の品質チェック(プ ロアクティブ)に対応しているのが特に良いところ。AWS Python SDKから利⽤することも可能。
8 Deequについて ※ DeequのGitHubレポジトリより2023/2/5に抜粋 https://github.com/awslabs/deequ Sparkをエンジンとして⼤規模なデータに対してデータ品質のチェックが実⾏できる。 後ほど紹介する『"NB[PO4BHF.BLFS .PEFM.POJUPSΛ׆༻ͨ͠σʔλυϦϑτݕͷղઆʱͰ σʔλυϦϑτͷνΣοΫʹར༻͢Δྫ͕հ͞ΕΔɻ
9 Data Quality Definition Language (DQDL) ※Data Quality Definition Language
(DQDL)から2023/2/5に引⽤。 https://docs.amazonaws.cn/en_us/glue/latest/dg/dqdl.html ITエンジニア・ビジネス問わず、多くのユーザーが利⽤できるように作成された定義⾔語。 SQLを記述することも可能。 ▼ColumnCorrelationの⽂法例 ▼ルールセットの⽣成結果の例 ←Iris Data Set(https://archive.ics.uci.edu/ml/datasets/iris)より Glue Data Qualityで⽣成したもの
10 σʔλυϦϑτݕ ※『"NB[PO4BHF.BLFS .PEFM.POJUPSΛ׆༻ͨ͠σʔλυϦϑτݕͷղઆʱΑΓʹൈਮ https://aws.amazon.com/jp/blogs/news/detect-data-drift-with-amazon-sagemaker-model-monitor/ この発表時点で、AWS Glue Data Qualityは下記表のうち、Deequで可能な「基本的な統計情報」を計測できる。 ほかのサービスと組み合わせてサンプリングすれば「スケッチ(分位スケッチ)」も可能ではある。
11 AWS Glue Data Qualityによるデータ品質チェック ルールセットの ⽣成 ルールセットの修正 (必要なら) データ品質の評
価
12 Pythonからの利⽤ Boto3からAWS Glue Data QualityのAPIが利⽤できることはドキュメントから確認できた。 品質チェックはGlueのテーブルを指定して⾏うため、どちらかというとリアクティブ的な⽤途となりそう。 リアクティブな⽤途だと、ステージング⽤のテーブルを⽤意しておき、⼀旦そこで品質チェックを挟むことで に使えそう。 Boto3
Docs 1.26.63 documentationより https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/glue.html •create_data_quality_ruleset() •delete_data_quality_ruleset() •get_data_quality_rule_recommendation_run() •start_data_quality_rule_recommendation_run() •start_data_quality_ruleset_evaluation_run() •など
13 機械学習システムでこんな感じに使えそう ※Data Quality Definition Language (DQDL)を2023/2/5時点に参考にしました。 https://docs.aws.amazon.com/glue/latest/dg/data-quality-authorization.html # DQDL
rule type 概要 1 ColumnCorrelation 2つの特徴量の間の相関を調べる。 2 Mean ある特徴量の平均を調べる。 3 StandardDeviation ある特徴量の標準偏差を調べる。 4 Sum ある特徴量の和を調べる。 5 IsComplete ある特徴量が全てNULLではないか調べる。 6 DistinctValuesCount ある特徴量のユニークな値の数を調べる。 7 CustomSql ある特徴量について集計⽤のSQLロジックを適⽤できる。 発表時点で18の種類があるが、基本的な統計情報の計算として特に使えそうなルールについて取り上げる。 より詳しくはドキュメントを参考にして頂きたい。
14 機械学習システムでこんな感じに使えそう 時系列予測機能 (Amazon Forecast) 推薦機能 (Amazon Personalize) 機械学習機能 (Amazon
SageMaker・Batchなど) ΦϒδΣΫτετϨʔδ (Amazon S3) データ品質管理 (AWS Glue) データウェアハウス・機械学習機能 (Amazon Redshift) 学習・推論対象のデータ AWS Cloud 品質チェック
15 AWS Glueコンソールからの使⽤例 https://dev.classmethod.jp/articles/aws-glue-data-quality-preview-with-iam-role-from-glue-console/ ⼀番簡単な試し⽅・必要な権限設定について記載しました。
16 まとめ • AWS Glue Data Qualityはデータ品質の管理のためのOSSであるDeequをサーバレス かつマネージドな環境で実⾏ができる。 • 「基本的な統計情報」によりデータドリフトの検出に活⽤できる。
• オブジェクトストレージ(Amazon S3)に対して利⽤でき、AWS上で機械学習シ ステムを構築する際に強⼒にデータのチェックが可能になる。