Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DynalystのML監視の取り組み事例

 DynalystのML監視の取り組み事例

Satsuki Nagae

December 18, 2023
Tweet

More Decks by Satsuki Nagae

Other Decks in Technology

Transcript

  1. 長江 五月 自己紹介 3 @nsakki55 ブログ: https://nsakki55.hatenablog.com/ AWSでML基盤を構築する記事を書いてます 業務 ・MLOps

    ・MLモデリング ・広告データ分析 CyberAgent AI事業本部 Dynalyst データサイエンティスト マネージャー
  2. 18 ML Test Scoreの監視項目 分類 監視項目 データ MLモデルの依存先の変化 学習時と推論時の入力データの普遍性 学習時と推論時の特徴量計算の普遍性

    モデル 本番環境のモデルバージョン モデルの数値的安定性 予測値 MLモデルの入力データに対する予測性能 システム MLシステムの計算性能 データサイエンス に関わる監視 引用: The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction. Figure 1. ML Systems Require Extensive Testing and Monitoring.
  3. 19 ML Test Scoreの監視項目 ML Test ScoreはMLOpsの指針として有効だが抽象度が高く 具体的に何を監視すればいいか迷う ・学習時と推論時の入力データの普遍性 ・モデルの数値的安定性

    データドリフトは有名だが 実際には何をすればいい? 数値的に安定してるとは? 実際に生じた疑問 …… ………………………
  4. 20 Neptune AIの監視項目(抜粋) 大分類 小分類 項目 データ データ品質 データの欠損・型チェック データドリフト

    連続・カテゴリ特徴のデータ距離指標 外れ値監視 大きなデータドリフト検知 モデル モデルドリフト 過去と現在の予測値のデータ分布距離 モデル設定 学習時のメタデータ 予測 モデル評価指標 本番環境の予測値に対する評価指標 予測ドリフト 予測値の分布変化 引用: A Comprehensive Guide on How to Monitor Your Models in Production
  5. 21 Neptune AIの監視項目(抜粋) 大分類 小分類 項目 パイプライン データパイプライン 入力/出力データの状態 モデルパイプライン

    学習ジョブの実行状態 コスト 推論コンピューティング費用 システム システムパフォーマンス 推論リクエスト数・レイテンシー システム信頼性 インフラ・ネットワーク指標 引用: A Comprehensive Guide on How to Monitor Your Models in Production
  6. 23 MLOps成熟度モデル 引用: 3大クラウド各社の MLOps 成熟度モデルの比較 AWS GCP Azure 初期フェーズ

    Level 0 マニュアルプロセス Level 0 MLOps なし 反復可能フェーズ Level 1 MLパイプライン自動化 Level 1 DevOps はあるが MLOps なし 信頼可能フェーズ Level 2 CI/CDパイプライン自動化 Level 2 学習自動化 スケーラブル フェーズ Level 3 モデルデプロイ自動化 Level 4 フルMLOps自動化
  7. 28 クラウドベンダーのML監視基盤 Vertex AI Monitoring (GCP) SageMaker Model Monitor (AWS)

    Azure Machine Learning Dataset Monitor (Azure) ・データドリフト検知機能をサポート ・ML監視導入が容易
  8. 35 監視項目の選定 オフライン・オンライン指標の観点で監視項目を選定 監視項目 対象 オフライン データの予測精度指標 logloss, AUC… 学習データの分布

    データ数, 特徴量の内訳 オンライン 予測値の記述統計量 平均, 分散… 本番環境の予測精度指標 logloss, AUC… 予測値の再現率 オンライン予測値の再現率 予測値の偏り度合い 同じ予測値の割合
  9. 39 監視のための技術選定 検討したが採用しなかった技術選定 ・SageMaker Model Monitorの利用 → 既存システムとの相性が悪かった ・ML監視用のダッシュボード作成 →

    継続的なメンテナンスコストをDSが担いたくなかった 自前で監視指標の集計を行い、Datadogで監視を行うことにした