Upgrade to Pro — share decks privately, control downloads, hide ads and more …

從開放資料到資料治理

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 從開放資料到資料治理

2017 國發會開放資料工作坊

Avatar for wHisKy CHANG

wHisKy CHANG

April 17, 2017
Tweet

More Decks by wHisKy CHANG

Other Decks in Education

Transcript

  1. 2017 OD2DG 問題: • 資料看起來很多,但是 80-90% 根本沒 人用 (少於 100-200

    下載) • 資料很多都是 CSV / XML / JSNO – 但 是有多少是騙人的 (偽裝的三星)
  2. 2017 OD2DG 資料來源:Open data Support (2014). Open Data & Metadata

    Quality. Available from: https://www.slideshare.net/OpenDataSupport/open-data-quality-29248578 . (last access 2016/1/30) 資料品質 :
  3. 2017 OD2DG 資料來源:Open data Support (2014). Open Data & Metadata

    Quality. Available from: https://www.slideshare.net/OpenDataSupport/open-data-quality-29248578 . (last access 2016/1/30) 資料品質 :
  4. 2017 OD2DG 資料品質評鑑 : 1. 資料 metadata 描述 2. 資料下載與取得

    3. 資料編碼與資料結構化 4. 資料內容描述 (data schema) 5. 資料欄位與內容標準 (standard)
  5. 2017 OD2DG 資料品質評鑑 : 1. 資料 metadata 描述 2. 資料下載與取得

    3. 資料編碼與資料結構化 4. 資料內容描述 (data schema) 5. 資料欄位與內容標準 (standard)
  6. 2017 OD2DG 資料品質評鑑 : 1. 資料 metadata 描述 2. 資料下載與取得

    3. 資料編碼與資料結構化 4. 資料內容描述 (data schema) 5. 資料欄位與內容標準 (standard)
  7. 2017 OD2DG • 結構化 • DB – 資料庫 • XML

    / JSON / KML • 半結構化 • CSV / TSV • 非結構化 • Word / 圖片 / 影音
  8. 2017 OD2DG 內容的檢驗 (結構化)資料分類 1. 表格數字 + 文字 Excel /

    Google Sheets 2. 地理空間資料 Google Fusion Table CartoDB
  9. 2017 OD2DG 內容的檢驗 資料清洗 – Data Cleaning 一致性檢查 • 台北市,北市,台北

    • 使用單位 (千元,萬?) • 多餘空白 • 重複資料 無效值與缺失值 • 噪音資料 / Noisy Data • 不完整資料 / incomplete Data