Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS Glue Data Quality(プレビュー)が機械学習システムに使えそうか調べてみるぞ!

Avatar for Nayuta S. Nayuta S.
February 13, 2023

AWS Glue Data Quality(プレビュー)が機械学習システムに使えそうか調べてみるぞ!

Avatar for Nayuta S.

Nayuta S.

February 13, 2023
Tweet

More Decks by Nayuta S.

Other Decks in Technology

Transcript

  1. • 今⽇の発表について • データドリフト • AWS Glueとは︖ • AWS Glue

    Data Quality(プレビュー)とは︖ • AWS Glue Data Qualityに登場する概念や使い⽅についてご紹介 • 機械学習システムでこんな感じに使えそう • まとめ 3 もくじ
  2. 4 今⽇の発表について • AWS Glue Data Quality(ないしDeequ)にて利⽤できる、機械学習で活⽤する データ品質のチェック機能について確認する。 • AWS

    Glue Data Qualityの利⽤イメージを掴む。 • AWS Glue Data Qualityを使った機械学習システムでの品質管理の構成について検 討・考察する。
  3. 7 AWS Glue Data Quality(プレビュー)とは︖ データ品質管理とモニタリングより引⽤ https://aws.amazon.com/jp/glue/ AWS Glueのネイティブなデータ品質の管理機能。AWSの開発したOSSであるDeequによるデータ品質チェック を、

    AWS Glueのサーバレスかつマネージドな環境上で⾮常に簡単に実⾏できる。 データを取り込んだ後の品質チェック(リアクティブ)だけでなく、データを取り込む際の品質チェック(プ ロアクティブ)に対応しているのが特に良いところ。AWS Python SDKから利⽤することも可能。
  4. 9 Data Quality Definition Language (DQDL) ※Data Quality Definition Language

    (DQDL)から2023/2/5に引⽤。 https://docs.amazonaws.cn/en_us/glue/latest/dg/dqdl.html ITエンジニア・ビジネス問わず、多くのユーザーが利⽤できるように作成された定義⾔語。 SQLを記述することも可能。 ▼ColumnCorrelationの⽂法例 ▼ルールセットの⽣成結果の例 ←Iris Data Set(https://archive.ics.uci.edu/ml/datasets/iris)より Glue Data Qualityで⽣成したもの
  5. 12 Pythonからの利⽤ Boto3からAWS Glue Data QualityのAPIが利⽤できることはドキュメントから確認できた。 品質チェックはGlueのテーブルを指定して⾏うため、どちらかというとリアクティブ的な⽤途となりそう。 リアクティブな⽤途だと、ステージング⽤のテーブルを⽤意しておき、⼀旦そこで品質チェックを挟むことで に使えそう。 Boto3

    Docs 1.26.63 documentationより https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/glue.html •create_data_quality_ruleset() •delete_data_quality_ruleset() •get_data_quality_rule_recommendation_run() •start_data_quality_rule_recommendation_run() •start_data_quality_ruleset_evaluation_run() •など
  6. 13 機械学習システムでこんな感じに使えそう ※Data Quality Definition Language (DQDL)を2023/2/5時点に参考にしました。 https://docs.aws.amazon.com/glue/latest/dg/data-quality-authorization.html # DQDL

    rule type 概要 1 ColumnCorrelation 2つの特徴量の間の相関を調べる。 2 Mean ある特徴量の平均を調べる。 3 StandardDeviation ある特徴量の標準偏差を調べる。 4 Sum ある特徴量の和を調べる。 5 IsComplete ある特徴量が全てNULLではないか調べる。 6 DistinctValuesCount ある特徴量のユニークな値の数を調べる。 7 CustomSql ある特徴量について集計⽤のSQLロジックを適⽤できる。 発表時点で18の種類があるが、基本的な統計情報の計算として特に使えそうなルールについて取り上げる。 より詳しくはドキュメントを参考にして頂きたい。
  7. 14 機械学習システムでこんな感じに使えそう 時系列予測機能 (Amazon Forecast) 推薦機能 (Amazon Personalize) 機械学習機能 (Amazon

    SageMaker・Batchなど) ΦϒδΣΫτετϨʔδ (Amazon S3) データ品質管理 (AWS Glue) データウェアハウス・機械学習機能 (Amazon Redshift) 学習・推論対象のデータ AWS Cloud 品質チェック
  8. 16 まとめ • AWS Glue Data Qualityはデータ品質の管理のためのOSSであるDeequをサーバレス かつマネージドな環境で実⾏ができる。 • 「基本的な統計情報」によりデータドリフトの検出に活⽤できる。

    • オブジェクトストレージ(Amazon S3)に対して利⽤でき、AWS上で機械学習シ ステムを構築する際に強⼒にデータのチェックが可能になる。