任意の時点の状態を復元出来るようにする バージョン管理とは、一つのファイルやファイルの集合に対して 時間とと もに加えられていく変更を記録する システムで、後で特定バージョンを呼 び出すことができるようにするためのものです。 1.1 Getting Started - About Version Control バージョン管理のためには変更前後のデータを履歴として管理する必要がある ナウキャストの場合: アノテーションやマスタデータは日々改善され変更されている
Data is of high quality to the degree that it meets the expectations and needs of data consumers … Data quality is thus dependent on context and on the needs of the data consumer. (DMBOK2 450p) Dimensions include some characteristics that can be measured objectively (completeness, validity, format, conformity) and others that depend on heavily context or on subjective interpretation (usability, reliability, reputation). (DMBOK2 458p) - 一般的なデータ品質 - 重複/欠損/フォーマットの妥当性/参照整合性など - 基本的には自動チェックが可能 - ライブラリも充実している(dbt, great expectations, etc) - ユースケース依存のデータ品質 - 自動的/客観的に計測可能なものもあれば, 主観的/人手による評価が必要なケースもある - 例: 機械学習モデルの評価指標(自動/客観) vs 推論結果の解釈性(主観/人手)