モニタリング • ビジネス KPI とデータ&モデルの予測結果などの紐付け (オフライン&オンラインメトリクス) • APM の強化 • プロアクティブな問題検出 ◦ RecSysOps[2] のような取り組み オブザーバビリティ • ML Observability の実践 • エラーに対して問題の特定と分析できる状態を作る ◦ Datadog with OpenTelemetry ◦ ML-API のトレーシングとメトリクス収集など Ref. 1. A Comprehensive Guide on How to Monitor Your Models in Production 2. RecSysOps: Best Practices for Operating a Large-Scale Recommender System