Upgrade to Pro — share decks privately, control downloads, hide ads and more …

做Data超讚的 誰懂?

做Data超讚的 誰懂?

- Speaker: Charlie Wang
- Event: 清大資訊科學社企業參訪

LINE Developers Taiwan

October 31, 2024
Tweet

More Decks by LINE Developers Taiwan

Transcript

  1. Charlie Wang Data Science Team Lead 清大工工 -> 台大商研 2017-2019

    : 天下雜誌 2020-2021 : Vpon 2021-Now : LINE TW
  2. 預測模型專案 DS DS DS DS 在學校,你可能負責: EDA Model build Hyper-

    parameter tuning Evaluation Feature Engineering Error analysis 已知問題 + 既有資料
  3. 預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE

    DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ?
  4. 預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE

    DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ? Biz problem ML problem Key metrics How to use 色情貼文辨識 檢舉率 / 曝光量 定期偵測排除 Method 影像辨識 / 社群網絡 找出色情貼文
  5. 預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE

    DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ? 潛在問題: • 資料散落各地,形同孤島 • 權限控管 • 指標定義不同 • 文件沒有統一格式
  6. 預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE

    DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift 1. 將 [統計指標] 轉換成 [商業指標] 2. 線下與線上測試 ?
  7. 預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE

    DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift 批量預測 或 即時預測 ?
  8. 預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE

    DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ?
  9. 小明說今天段考五科平均考80分 你覺得小明考很好還是考很糟? 商業邏輯建立 對比上下趨勢 要有Benchmark 才能進行判讀! 跟同班同學比 跟上次段考比 跟去年段考比 對比

    下鑽 五科拆開來比 趨勢 近六次段考比 判斷「小明」本身的表現 判斷「不同考題」的影響 排除「季節因素」的影響 判斷「科目強弱」的組成 判斷小明本身「穩定性」與趨勢
  10. 商業邏輯建立 對比上下趨勢 小明說今天段考五科平均考80分 你覺得小明考很好還是考很糟? 要有Benchmark 才能進行判讀! 跟同班同學比 跟上次段考比 跟去年段考比 對比

    下鑽 五科拆開來比 趨勢 近六次段考比 • 小明考得比大多數 同學高 • 過去六次都有相近 表現,但這次名次 稍微退步 • 除了數學60分, 其他都在85分上 下 拉升 • 小明認真唸書 • 小明學習力不錯 • 小明數學可能不好 • 也許可以單看數學近 六次表現 • 判斷是「數學」不拿 手,還是這次數學 「題材」不拿手
  11. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    運營數據就像是料理供應鏈 Picture Source: google search
  12. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    運營數據的關鍵議題 (SCM in Data) 更新頻率 / 儲存 更新同步 / 口徑 商業邏輯維運 運算效能 / 重構 Picture Source: google search
  13. Data Dev LINE Family Services LINE SHOPPING LINE SPOT LINE

    MUSIC LINE Sticker LINE VOOM LINE Reward Fact Checker LINE HELP TW LINE Travel NLP Knowledg e Graph Uplift Modeling NER Classifier Duplication Detector Auto completion Keyword Extraction Related Search Text Generation User Tagging Data Analytics Recom- mendation CLV LINE TODAY 而Data Dev Team,就是在思考如何跨服務強化數據賦能