この分野の製品は古くから存在するが、エンタープライズ向けであり、使い勝手がいまいち のものも多かった ◦ A senior data leader at a large company called these data catalogs “expensive shelfware”, or software that sits on the shelf and never gets used. • スタートアップ各社は自社システムを作り運用する状況が生まれていた ◦ LinkedIn: DataHub ▪ スピンアウトサービス: Acryl Data ◦ Lyft: Amundsen ▪ スピンアウトサービス: Stemma ◦ WeWork: Marquez ◦ Airbnb: Dataportal ◦ Spotify: Lexikon ◦ Netflix: Metacat ◦ Uber: Databook
e.g. Freshness, Distribution, Volume, Schema, Lineage ◦ データの健全性を監視しながらデータ品質 を向上させデータのダウンタイムを削減する ◦ ref: Data Reliability • dbt ◦ YAML定義によるschema test ◦ SQLによるdata test ◦ data profiler ◦ run external library (e.g. great expectation)