Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ITSeed 資訊種子參訪 - LINE Data Dev

ITSeed 資訊種子參訪 - LINE Data Dev

ITSeed 資訊種子參訪 - LINE Data Dev @ LINE
Nina Cheng, Data Dev Team 2022.03.18

LINE Developers Taiwan

March 18, 2022
Tweet

More Decks by LINE Developers Taiwan

Other Decks in Technology

Transcript

  1. Questions Data dev 是如何使⽤機器學習⽅法或統計分析來優 化使⽤者體驗︖在 LINE 擔任資料分析師(員)相 關⼯作除了技術以外還需要哪些⽅⾯的能⼒︖ LINE 的使⽤者數量龐⼤,在後台上應該有⾮常

    龐⼤的數據量,想問⼀下 LINE 通常都如何應⽤ 這些⼤量的數據呢︖ 想請問 Data dev 部⾨對於資料分析的開發策略是什麼︖ ⽬前是針對什麼項⽬進⾏主⼒分析︖ 如果想進⼊ LINE Taiwan ⼯作需要具備哪些特質或是能⼒︖ 是否與在台灣的組織⽬標有關係︖ 會給予想要進⼊ LINE Taiwan ⼯作的⼤學⽣, 什麼樣⼦的建議呢︖(⼼態、軟硬實⼒) 請問⼯作下來感受到 LINE Taiwan 的公司⽂化是什麼樣⼦︖
  2. USERS > 19M/d LINE TODAY > 1M articles/y LINE SHOPPING

    > 10M queries/m OA > 1B interactions/m Data in LINE
  3. AI-enhanced LINE Services Official Account Ads 圖⽚來源︓https://hub.line.me/ 如何推薦用戶會感興趣的商家? 如何確保新聞品質? 防止假新聞擴散

    如何判斷潛在的訂閱制流失戶? 如何幫助用戶更快搜到想聽的歌? 如何讓用戶買更多? 如何投遞廣告?
  4. AI-enabled Applications Business Intelligence Data Dev LINE Family Services LINE

    TODAY LINE SHOPPING LINE SPOT LINE MUSIC LINE STICKER LINE VOOM LINE Reward Official Account Fact Checker LINE HELP TW LINE TRAVEL Ads 獨立的資料⼯程部⾨,提供資料科學解決⽅案 LINE TODAY 甲方中的乙方:接收各服務需求、同時也打造自己的產品!
  5. Data Dev LINE Family Services LINE SHOPPING LINE SPOT LINE

    MUSIC LINE STICKER LINE VOOM LINE Reward Fact Checker LINE HELP TW LINE TRAVEL NLP Knowledge Graph MarTech NER Classifier Duplication Detector Auto completion Keyword Extraction Related Search Text Generation User Tagging Data Analytics Recom- mendation RFM CLV 以NLP與MarTech應⽤實現服務優化 LINE TODAY Uplift Modeling 廣告/推薦/搜尋
  6. 17 資料⼯程 Data Engineering 資料科學 Data Science 資料分析 Data Analytics

    應⽤ ⼯程 資料搜集 資料倉儲 資料管線 機器學習 深度學習 模型開發與優化 數據運營 A/B Testing 商業洞⾒ 報表建置 資料科學⽔有多深?
  7. Skills and Responsibility • Build and optimize da ta pipeline

    architectur e • Assemble large, com plex data sets that m eet requirements Data Engineer Data Analyst Big data infra, SQL, ET L, message queuing • Interpret data, analyz e results using statisti cal techniques • Identify, analyze, and interpret trends or pat terns in complex data sets Statistics, Data Visualiz ation, Business Knowle dge SKILL RESPONSIBILITY • Select appropriate da tasets and data repre sentation methods • Research and imple ment appropriate ML algorithms Data Scientist Machine learning, deep learning, CV, NLP, Spe ech ML Svc Engineer • Build and scale mach ine learning infrastruc ture • Monitor model perfor mance System infrastructure d esign, DevOps
  8. Skills and Responsibility • Build and optimize da ta pipeline

    architectur e • Assemble large, com plex data sets that m eet requirements Data Engineer Data Analyst Big data infra, SQL, ET L, message queuing • Interpret data, analyz e results using statisti cal techniques • Identify, analyze, and interpret trends or pat terns in complex data sets Statistics, Data Visualiz ation, Business Knowle dge SKILL RESPONSIBILITY Pipeline Biz • Select appropriate da tasets and data repre sentation methods • Research and imple ment appropriate ML algorithms Data Scientist Machine learning, deep learning, CV, NLP, Spe ech Model ML Svc Engineer • Build and scale mach ine learning infrastruc ture • Monitor model perfor mance System infrastructure d esign, DevOps Service
  9. ML Workflow DS DS DS DS EDA Model build Hyper-parameter

    tuning Evaluation Feature Engineering Analysis 已知問題 + 既有資料 Feature Model 在學校做 ML,你可能會經歷以下幾個工作階段:
  10. DS DE MSE DA PM Biz DS DE DS DS

    DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Scaling Performance Model decay Data drift Feature Model Data Label Reliability Biz analysis ML Workflow 進到職場後: ? Biz problem
  11. NLP應用專案 以 LINE 購物相關搜尋為例 e.g. 吹風機、掃地機器人 當使⽤者搜尋: “吸塵器” 根據輸入的關鍵字,推薦出產品規格、品牌等更細 的關鍵字,幫助使⽤者快速找到想要購買的產品。

    在搜尋⾴: 根據輸入的關鍵字,推薦出相似的產品, 誘使使⽤者買更多。 在導購⾴: 使⽤LINE購物N天內全站搜尋紀錄, 以確保字詞與商品熱度。 訓練資料:
  12. DS DE MSE DA PM Biz DS DE DS DS

    DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Scaling Performance Model decay Data drift Feature Model Data Label Reliability Biz analysis ? Biz problem NLP應用專案 以 LINE 購物相關搜尋為例 • 資料研究與選擇 • 資料量與效能 • 資料處理 Data Label
  13. DS DE MSE DA PM Biz DS DE DS DS

    DE DA MSE • 線下與線上測試 • 不只看 [統計指標] 更要看 [商業指標] ? EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Scaling Performance Model decay Data drift Feature Model Data Label Reliability Biz analysis NLP應用專案 以 LINE 購物相關搜尋為例 Biz problem
  14. DS DE MSE DA PM Biz DS DE DS DS

    DE DA MSE Scaling Performance • 批量預測或即時預測 • 更新頻率 ? EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Model decay Data drift Feature Model Data Label Reliability Biz analysis NLP應用專案 以 LINE 購物相關搜尋為例 Biz problem
  15. DS DE MSE DA PM Biz DS DE DS DS

    DE DA MSE ? EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Scaling Performance Model decay Data drift Feature Model Data Label Reliability Biz analysis NLP應用專案 以 LINE 購物相關搜尋為例 • 商業指標: CTR/CVR • 服務健康指標: SLO Biz problem
  16. DS DE MSE DA PM Biz DS DE DS DS

    DE DA MSE ? Biz problem Key metrics How to use 優化關鍵字推薦 Model: Hit rate Model API NLP模型設計 EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Scaling Performance Model decay Data drift Feature Model Data Label Reliability Biz analysis NLP應用專案 以 LINE 購物相關搜尋為例 LINE購物 歷史搜尋紀錄 Biz: CTR/CVR/Steps Key metrics
  17. 12 11 10 9 資料工程師的工作組成 0% 5% 10% 15% 20%

    25% 30% 講座分享 報表建置 資料分析 Data Pipeline & ETL 服務維運 MLOps 打造產品 Time • Model API 開發 • 產品 Backend 開發
  18. 12 11 10 9 資料工程師的工作組成 0% 5% 10% 15% 20%

    25% 30% 講座分享 報表建置 資料分析 Data Pipeline & ETL 服務維運 MLOps 打造產品 Time
  19. 12 11 10 9 資料工程師的工作組成 0% 5% 10% 15% 20%

    25% 30% 講座分享 報表建置 資料分析 Data Pipeline & ETL 服務維運 MLOps 打造產品 Time
  20. 12 11 10 9 資料工程師的工作組成 0% 5% 10% 15% 20%

    25% 30% 講座分享 報表建置 資料分析 Data Pipeline & ETL 服務維運 MLOps 打造產品 Time • 資料流建置 • ETL自動化
  21. 12 11 10 9 資料工程師的工作組成 0% 5% 10% 15% 20%

    25% 30% 講座分享 報表建置 資料分析 Data Pipeline & ETL 服務維運 MLOps 打造產品 Time • 廣告成效分析 • 免費貼圖用戶輪廓分析
  22. 12 11 10 9 資料工程師的工作組成 0% 5% 10% 15% 20%

    25% 30% 講座分享 報表建置 資料分析 Data Pipeline & ETL 服務維運 MLOps 打造產品 Time
  23. 12 11 10 9 資料工程師的工作組成 0% 5% 10% 15% 20%

    25% 30% 講座分享 報表建置 資料分析 Data Pipeline & ETL 服務維運 MLOps 打造產品 Time • 工程團隊內部分享 • 與業務團隊分享 • 對外分享
  24. Q: 請問⼯作下來感受到 LINE Taiwan 的公司⽂化是什麼樣⼦︖ Users Rule Always Data-driven Go

    Brave. No Fear. No Regrets 以使用者需求為依歸 憑藉事實、而非直覺 勇敢地挑戰、不要害怕失敗
  25. Q: 如果想進⼊ LINE Taiwan ⼯作需要具備哪些 特質或是能⼒︖是否與在台灣的組織⽬標有關係︖ Q: 會給予想要進⼊ LINE Taiwan

    ⼯作的⼤學⽣, 什麼樣⼦的建議呢︖(⼼態、軟硬實⼒) Q: 請問您剛進⼊ LINE 時,是否有遇到不適應的 狀況︖如果有的話是如何調適的呢︖
  26. Q&A