Upgrade to Pro — share decks privately, control downloads, hide ads and more …

網路爬蟲與文字探勘 證券公司 App 評論分析的資料科學旅程

Avatar for tlyu0419 tlyu0419
December 13, 2024
38

網路爬蟲與文字探勘 證券公司 App 評論分析的資料科學旅程

App 的使用體驗是各間金融公司在進行數位轉型時的一項重要環節,直接影響到客戶對於企業的忠誠度與公司營收。然而要透過數據驅動的力量來分析使用體驗卻不是件容易的事
雖然 Google Play/Apple Store 的應用程式市集已經提供 APP 的滿意度分數了,而滿意度卻過度的簡化了使用體驗背後所包含的訊息,也無法直接提供對 APP 的優化建議
在這次的課程中我們將以台灣前 10 大證券公司的 APP 評論資料為例,嘗試運用網路爬蟲的技術蒐集 Google Play APP 的評論資料,並藉由文字探勘的技術進行分析,嘗試提供公司具有商業意義的分析洞察與建議

Avatar for tlyu0419

tlyu0419

December 13, 2024
Tweet

More Decks by tlyu0419

Transcript

  1. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 •

    App 的使用體驗是各間金融公司在進行數位轉型時的一項重 要環節,直接影響到客戶對於企業的忠誠度與公司營收。然 而要透過數據驅動的力量來分析使用體驗卻不是件容易的事 • 雖然 Google Play/Apple Store 的應用程式市集已經提供 APP 的滿意度分數了,而滿意度卻過度的簡化了使用體驗背 後所包含的訊息,也無法直接提供對 APP 的優化建議 • 在這次的課程中我們將以台灣前 10 大證券公司的 APP 評論 資料為例,嘗試運用網路爬蟲的技術蒐集 Google Play APP 的評論資料,並藉由文字探勘的技術進行分析,嘗試提供公 司具有商業意義的分析洞察與建議 大葉大學 管理學院 文字探勘課程 December 7, 2024 網路爬蟲與文字探勘: 證券公司 App 評論分析的資料科學旅程 #Python #網路爬蟲 #數位金融 游騰林(tlyu0419) 目前在 富邦證券 擔任資料科學家,先後在電信業 和金融業服務,有超過 8 年的數據分析、機器/深度 學習模型的實務經驗 喜歡透過資料科學技術動手解決現實世界中的問題, 閒暇之餘也會在各大技術年會分享實踐經驗與心得 心中理想的工作形態是擔任顧問,透過分享資料科學 的專案經驗與技術,協助企業提升經營成效 #文字探勘
  2. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Outline

    • 議題擬定 • 資料蒐集 • 文本探勘 • 總結&QA 2
  3. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 議題擬定

    3 最近公司(富邦證券)的市佔率有下降的趨 勢,請數據部門幫忙分析可能的原因,並 根據分析發現提供公司一些經營建議
  4. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 資料來源

    • 公司內部資料 • 客戶進線客服中心的進線記錄 • 客戶的開戶資料 • 客戶的下委託/成交的交易記錄 • 各個營業系統 • 外部資料 • Google Play / Apple Store • PTT / Dcard • Youtube • Facebook / Instgram • 股票爆料同樂會 • 台灣證券交易所 • … 4 透過 SQL 指令 至公司資料庫 撈取&分析資料 開發網路爬蟲程式 至指定的網站收集資料
  5. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 外部資料

    – Google Play 網站 5 元大證券 凱基證券 富邦證券 永豐金證券 國泰證券 元富證券 群益證券 華南永昌 統一證券 兆豐證券 台灣前 10 大證券商
  6. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google

    Play 爬蟲的開源套件 6 Ref: JoMingyu/google-play-scraper Github 上開源的 google play 爬蟲專案 獲得高達 772 的 Star 和 212 個 Fork 應該能快速安裝&抓到需要的資料吧?
  7. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google

    Play Scraper 的使用結果 7 明明寫 5,840 則評論 怎麼會只有 43 筆資料? 怎麼可能只有43筆資料!
  8. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 為什麼網路爬蟲程式很容易失效?

    • 公司出於優化網站體驗的目的對網站做改版/更新,導致爬蟲程式定位失敗 • 公司新增反爬蟲機制來阻擋爬蟲程式抓取資料 • 資料本身是公司的寶貴資產(?) • 爬蟲程式帶來無效的網路流量,無法幫公司帶來產品/廣告收益 • 消耗的網路流量會影響其他用戶的瀏覽體驗(變慢) • 典型的反爬蟲機制 • ex: header, captcha, IP, 帳號, referer, cookie, … 等等 • 雖然有大神熱心開源網路爬蟲程式,但通常只會在短時間內有效! (就像我們目前遇到的狀況!) • 爬蟲界名言: 開發一時爽,維護火葬場 • 因此也衍生出許多專門幫公司爬資料的產業/工作 8 有開源專案很便利沒錯,但自身還是 但自己還是得具備資料工程的能力來應對突發狀況!
  9. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 什麼是網路爬蟲?

    9 電腦/手機 瀏覽器 目標網站 2 3 1. 跟目標網站說需要什麼資料 1 2. 目標網站回傳請求的資料(程式碼) 3. 透過瀏覽器將程式碼轉為漂亮的網頁
  10. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 什麼是網路爬蟲?

    10 電腦/手機 瀏覽器 目標網站 2 3 1. 跟目標網站說需要什麼資料 1 2. 目標網站回傳請求的資料(程式碼) 3. 透過瀏覽器將程式碼轉為漂亮的網頁 網路爬蟲就是將 1 和 2 的工作從人工操作 改由透過程式來自動收集資料,減少人力成本!
  11. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲的應用場景

    – 風險管理 11 企業倒閉會導致公司放款的損失, 透過網路爬蟲能自動收集企業的(負面)新聞 在第一時間控制風險,避免損失擴大! 大同染整公司宣佈於 10/29 倒閉 實際上早已於 9/10 就陸續傳出負面
  12. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲的應用場景

    – 投資 12 投資人會透過股票的交易量/金額走勢來計算技術指標 找出有利可圖的投資標的。透過網路爬蟲能自動、大 規模的收集上市櫃股票資訊,提升獲利的機會
  13. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲的應用場景

    – 網路評論 13 公司 APP 中功能繁雜,在進行版本更新時 難免會出現異常狀況,影響客戶正常使用 透過網路爬蟲程式可以即時收集客戶反饋 的問題,並提供給資訊部門進行程式優化/除錯 希望增加新功能 無法登入APP 反饋APP 不好用
  14. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲的進行方式

    14 1 輸入要去的網站的網址,如聯合新聞的網站 2 取得聯合新聞網的網站資料 平常查資料是跟瀏覽器說需要哪個網址的資料 在 Python 中也是同樣的邏輯,先跟 Python 說要 去哪個網站,後面再設法剖析取得的資料
  15. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲練習案例

    • 案例1: 聯合新聞網新聞 • 練習目標: 設定要爬取資料的目標 • 練習目標: 利用開發者工具定位資料 • 練習目標: 透過 Python 發送請求和剖析資料 • 案例2: 股票爆料同樂會 • 練習目標: 觀察網站架構 • 練習目標: 透過開發者工具檢索資料 • 練習目標: 透過 Python 請求多則資料 • 案例3: Google Play • 練習目標: 了解 Google Play 網站的網站架構 • 練習目標: 複雜網站的反爬蟲機制與應對方式 • 練習目標: 透過 Python 爬取 Google Play 的留言資料 15
  16. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲練習案例

    – 聯合新聞網 • 先到 聯合新聞網 的 即時新聞區 打開任一則新聞 16
  17. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 盤點要收集的新聞資料

    17 https://udn.com/news/story/10930/8395090 ?from=udn-ch1_breaknews-1-cate1-news 1 • 問號後面的資料是 query string ,是公司用來收 集客戶資料的參數,拿掉不會影響到瀏覽網頁 • 這段參數其實記錄了使用者是從 要聞 區的新聞而 進入這則新聞 1 2 我們感興趣的內容,包含了 a. 類型 b. 標題 c. 時間 d. 內容 e. Hashtag 2a 2b 2c 2d 2e
  18. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 定位需要的資料

    19 滑鼠在原始碼上移動時, 左邊的新聞頁面會自動出現文字框 標示出目前原始碼對應的位置 新聞標題的元素名稱: <h1 class="article-content__title"> 嘗試找出下列元素的元素名稱 • 新聞時間: <time class="article-content__time"> • 新聞類型: <nav class="article-content__breadcrumb"> • 新聞內容: <section class="article-content__editor "> • Hashtag: <section class="keywords">
  19. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 開啟今天活動的教材連結

    • Google 搜尋 tlyu0419 的 github,找到今日活動的 repositories • https://github.com/tlyu0419/dyu_text_mining 21 1 2 3 4
  20. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲練習案例

    – 股票爆料同樂會 23 Google 搜尋 股票爆料同學會,並進入網站
  21. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 觀察網站架構

    24 打開開發者工具並切換到網路的頁籤 不斷往下滾動左邊的網頁來加載更多新貼文 觀察看看右邊的開發者工具頁面中發生了什麼事情?
  22. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 要怎麼找到需要的網路封包?

    25 2 3 1 2 1 3 漂亮的網站其實是由許多網路封包 組合而成 • 有些負責讀取網站的icon • 有些負責讀取貼文的內容 • 有些負責讀取大頭貼 • … 爬蟲工程師的任務就是要從上百/千 個網路封包中找到需要的資料 但是要如何找到呢? 從貼文中的訊息進行反向檢索, 利用貼文中出現的關鍵詞回去找哪 些封包有出現這些關鍵詞 最好檢索英文&有獨特性的字詞會比 較容易找到資料 於左邊的開發者工具中按 Ctrl + F 然後在左側數據要查詢的關鍵詞就 能找到有出現關鍵詞的網路封包
  23. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 拆解網路封包的使用方式

    26 2 3 1 4 5 2 3 1 4 5 點擊檢索到的網路封包 右側的回應中會出現檢索到 的關鍵詞與區塊 中間也會反白出對應的網路 封包,繼續點擊該網路封包 這時候會看到該網路封包的 網址與查詢參數。中間遮住 的網路封包關鍵詞是什麼? 關鍵詞: _____________ 將封包中的關鍵詞放入篩選 器進行檢索,觀察有多少個 類似的網路封包? 查詢參數 間的差異在哪裡?
  24. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲練習案例

    – Google Play • 請大家先到 Google 搜尋 google Play e點通,並進入頁面 28
  25. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 找到

    Google Play 的 APP 評論區 29 1 2 1 2 點擊 “評分與評論” 右方的箭號 出現評論的互動視窗,往下滑動可以加載更多貼文
  26. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 檢索

    Google Play 評論資料的網路封包 30 1 3 1 2 對中間的互動視窗點右鍵 2 點擊 檢查 3 點擊 網路 4 使用前面學會檢索網路封包的技巧 嘗試找出取得評論資料的API URL 名稱: _________________
  27. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 拆解

    Google Play 的 API 31 查詢參數太複雜時, 可以切換至 承載(payload) 檢視轉換過的資料 請比較一下這幾個請求中,在查詢字串參數和表單資料 有哪些地方會有不同? 查詢字串: __________ 表單資料: __________ 1 1 2 2
  28. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 拆解

    Google Play 的 API • 進一步比較,其實差異是在哪裡 • 後面的請求,其實是來自前面的回應 • 差不多就是一個巡迴 32 2 1 經過比較後,主要改變的地方在於右方標註的兩處 1 的變化有規律,每個請求都會在最前面的位數加1 2 的變化看不太出來變化的規律,但是查詢這段文字 會發現其實來自於前次請求(3)中回應的內容 3
  29. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 拆解

    Google Play 的 API 33 Python Google Play API 預先建立 API 需要的查詢與請求參數 2 1 1 透過 Python 夾帶 查詢與請求參數 跟 Google Play 的 API 請求資料 2 3 查詢與請求參數 3 4 4 Google Play 的 API 回傳APP 評論 以及神秘的Payload 字串 更新查詢與請求參數 接著展開下一輪的資料請求
  30. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google

    Play APP 評論爬蟲實作 • 開啟 Github 中的 Colab 連結 進行實作 34
  31. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 複雜網站的應對方式

    • 有時候網站會設定許多&複雜的反爬蟲機制來阻擋爬蟲, 基於 技術能力 / 時間 / 金錢 等等因素沒辦法順利爬取資料時… • 可以考慮的應對方式 • 繼續透過 Request 硬幹 • 有時間還是可以嘗試這個方法,會有很多學習與收穫 • Selenium • 透過Python 開啟一個瀏覽器&操作(滾視窗、點擊連結) • 接著透過 Python 讀取網頁的原始碼進行剖析 • 缺點是 Selenium 的驅動器需要頻繁隨著瀏覽器的版本進行更新 • PyautoGUI • Python 的按鍵精靈,直接操作電腦的滑鼠/鍵盤 • 完成加載資料後,將網頁原始碼做保存 • 透過 Python 讀取&剖析網頁原始碼 35
  32. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google

    Play 爬蟲 – 讀取更多資料 • Demo • 透過 PyAutoGUI 來反覆送出 滾動滑鼠的指令,達成爬蟲的目的 36
  33. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google

    Play 爬蟲 – 保存網頁資料 37 2 1 1 透過 PyAutoGUI 加載完資料後,點擊右鍵 另存新檔 2 將網頁存為檔案,存檔類型選擇 網頁,完整(*.html)
  34. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 透過

    Python 定位與剖析資料 38 留言的元素名稱: <div class="RHo1pe"> 嘗試找出下列元素的元素名稱 • 客戶名稱: <div class="X5PpBb"> • 留言評分: <'div class="iXRFPc"> • 留言時間: <span class="bp9Aid"> • 留言內容: <div class="h3YV2d">
  35. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 初步整理&分析APP評論資料

    • 將剖析的資料存為 Pandas DataFrame 就可以進行分析囉! 40
  36. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 富邦證券-e點通

    分數變化 41 分數從谷底翻升 APP 的分數又再次探底… 分數跌到谷底 分數突然衝破天際 分數的變化固然很有趣,但也過度簡化 了資訊,看不到分數變化背後的故事 分數遇到亂流, 每個月都在大幅變動 很快的分數又回跌
  37. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Outline

    • 議題擬定 • 資料蒐集 • 文本探勘 • 總結&QA 42
  38. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 回顧長官的指示

    43 最近公司(富邦證券)的市佔率有下降的趨 勢,請數據部門幫忙分析可能的原因,並 根據分析發現提供公司一些經營建議
  39. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 開啟今天活動的教材連結

    • Google 搜尋 tlyu0419 的 github,找到今日活動的 repositories • https://github.com/tlyu0419/dyu_text_mining 44 1 2 3 4
  40. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 初步了解評論資料

    • 請至 Github 下載 app 的評論資料 • 觀察 score 和 text 的欄位,嘗試找出 5 個客戶經常稱讚/抱怨 APP 的地方 45
  41. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 文本資料視覺化

    – 文字雲 • 想法 • 先計算語料庫中各個詞的 重要性, 再依照詞的 重要性 來設定 大小 • 優點 • 簡單、直覺 • 限制 • 吃重斷詞的結果 • 詞的重要性不容易評估 • 不容易獲得商業洞察 46 Ref: wordcloud · PyPI CUBE APP 的客戶評論 畫文字雲很容易, 但難點在於如何畫出具有商業價值的文字雲
  42. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 文字雲實作

    • Python 實作 • 中文字體設定 • 中文斷詞 • 計算詞頻 • 繪製文字雲 • 優化文字雲 47
  43. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 繪製不同滿意度的文字雲

    • 透過滿意度分數繪製不同的文字雲,讓分析圖更有意義 48 5分的文字雲 1分的文字雲
  44. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 文字雲的限制

    • 按照滿意度分數來繪製不同的文字雲確實可以讓分析圖比較有意義, 但是… • 滿意度分數的顆粒度可能還是不夠細緻 • 或者有些資料本身就沒有標註結果 • 如果要回答客戶有多少種問題,以及不同問題的數量,就需要進行文本分群 49 1分的文字雲 抱怨的議題1,數量: ?? 抱怨的議題2,數量: ?? 抱怨的議題3,數量: ?? 抱怨的議題n,數量: ??
  45. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 大型語言模型

    + 文本分群 50 • 想法 • 透過大型語言模型協助我們將文本投影 至文本的向量空間,讓語義相近的句子 距離靠近,無關的句子的距離遙遠 • 接著再進行分群分析,找出文本的分群 • 優點 • 幾乎不用對文本進行預處理,可以直接 進行文本向量化 • 透過分群分析方法來對客戶的評論做自 動分群
  46. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 文本分群實作

    • Python 實作 • 文本轉向量 • 文本分群 • 找合適的分群組數 • 檢視文本分群的效果(excel) 51
  47. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 文本分群+視覺化

    53 平均分數: 2.63分 數量: 2672(15.8%) 平均分數: 1.74分 數量: 1572(9.3%) 平均分數: 3.12分 數量: 1540(9.1%) 平均分數: 4.60分 數量: 1994(11.8%) 平均分數: 2.14分 數量: 1499(8.9%) 平均分數: 2.61分 數量: 2621(15.5%) 平均分數: 1.90分 數量: 2102(12.4%) 平均分數: 4.51分 數量: 1079(6.4%) 平均分數: 4.49分 數量: 956(5.7%) 平均分數: 1.61分 數量: 861(5.1%)
  48. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 找各分群中的代表文本

    55 0 1 4 2 3 很爛,一直閃退 閃退一直進不去 APP一直閃退 閃退閃退閃退 改版後一直閃退 5 當掉很多次 0.857 0.872 0.887 0.855 0.866 0.797 群中心 群中心法 計算每個點距離群中心的距離,以最接近中心 的文本作為代表文本 最大相似度法 計算群內每個點彼此間的相關係數,取平均分數最高 的樣本作為代表文本
  49. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 斷詞器與結果比較

    56 Ref: google/sentencepiece: Unsupervised text tokenizer for Neural Network-based text generation. 晚上線上客服不好,自己兩分鐘就能解決的問 題還要花十分鐘跟八+九客服鬼打牆 跨行轉帳免費次數無預警取消,沒注意看被扣 了多筆手續費 晚上 / 線上 / 客服 / 不好 / , / 自己 / 兩分鐘 / 就 / 能 / 解決 / 的 / 問題 / 還要 / 花 / 十分 / 鐘跟八 / + / 九 / 客服 / 鬼 / 打牆 晚上 / 線上客服 / 不好 / , / 自己 / 兩分鐘 / 就能 / 解決 / 的問題 / 還要 / 花 / 十分鐘 / 跟 / 八 / + / 九 / 客服 / 鬼打牆 跨行 / 轉帳 / 免費次數 / 無 / 預警 / 取消 / , / 沒 / 注 意 / 看 / 被扣 / 了 / 多筆 / 手續費 跨行轉帳 / 免費 / 次數 / 無預警 / 取消 / , / 沒 / 注意 / 看 / 被扣 / 了 / 多筆 / 手續費 jieba sentencepiece 其實還是可以建立自定義詞典來優化 jieba 的斷詞結果 但就是會需要投(不少)時間處理正確性與顆粒度的議題
  50. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 找分群中的代表關鍵詞

    57 Ref: MaartenGr/BERTopic: Leveraging BERT and c-TF-IDF to create easily interpretable topics. Bertopic 提供了端到端的 topic modeling 解決方案, 但真正創新之處是提出 class-based 的 tf-idf 的方法 來找分群的代表詞(而且效果不錯) Classic TF-IDF class-based TF-IDF t: term, d: document, c: class A: 各類文本的平均詞數
  51. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Outline

    • 議題擬定 • 資料蒐集 • 文本探勘 • 總結&QA 58
  52. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 總結

    • 不要害怕去擔任指出方向的角色 • 由於業務部門缺乏資料科學的知識與 技術,較難從宏觀的角度去檢視是否 有其他更重要的問題需要解決 • 當然數據部門也得有更大的企圖心去 幫企業解決問題,工作起來也會比較有 成就感 • 要有把手用髒的勇氣和決心 • 發現問題只是解決問題的第一步,更 重要的是你想怎麼解題 • 業務單位有自己的 KPI 要被,多站在 業務單位的角度去思考會讓專案比較 容易落地 59