網路爬蟲與文字探勘證券公司 App 評論分析的資料科學旅程

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 •
App 的使用體驗是各間金融公司在進行數位轉型時的一項重要環節，直接影響到客戶對於企業的忠誠度與公司營收。然而要透過數據驅動的力量來分析使用體驗卻不是件容易的事 • 雖然 Google Play/Apple Store 的應用程式市集已經提供 APP 的滿意度分數了，而滿意度卻過度的簡化了使用體驗背後所包含的訊息，也無法直接提供對 APP 的優化建議 • 在這次的課程中我們將以台灣前 10 大證券公司的 APP 評論資料為例，嘗試運用網路爬蟲的技術蒐集 Google Play APP 的評論資料，並藉由文字探勘的技術進行分析，嘗試提供公司具有商業意義的分析洞察與建議大葉大學管理學院文字探勘課程 December 7, 2024 網路爬蟲與文字探勘: 證券公司 App 評論分析的資料科學旅程 #Python #網路爬蟲 #數位金融游騰林(tlyu0419) 目前在富邦證券擔任資料科學家，先後在電信業和金融業服務，有超過 8 年的數據分析、機器/深度學習模型的實務經驗喜歡透過資料科學技術動手解決現實世界中的問題，閒暇之餘也會在各大技術年會分享實踐經驗與心得心中理想的工作形態是擔任顧問，透過分享資料科學的專案經驗與技術，協助企業提升經營成效 #文字探勘

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Outline
• 議題擬定 • 資料蒐集 • 文本探勘 • 總結&QA 2

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊議題擬定
3 最近公司(富邦證券)的市佔率有下降的趨勢，請數據部門幫忙分析可能的原因，並根據分析發現提供公司一些經營建議

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊資料來源
• 公司內部資料 • 客戶進線客服中心的進線記錄 • 客戶的開戶資料 • 客戶的下委託/成交的交易記錄 • 各個營業系統 • 外部資料 • Google Play / Apple Store • PTT / Dcard • Youtube • Facebook / Instgram • 股票爆料同樂會 • 台灣證券交易所 • … 4 透過 SQL 指令至公司資料庫撈取&分析資料開發網路爬蟲程式至指定的網站收集資料

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊外部資料
– Google Play 網站 5 元大證券凱基證券富邦證券永豐金證券國泰證券元富證券群益證券華南永昌統一證券兆豐證券台灣前 10 大證券商

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google
Play 爬蟲的開源套件 6 Ref: JoMingyu/google-play-scraper Github 上開源的 google play 爬蟲專案獲得高達 772 的 Star 和 212 個 Fork 應該能快速安裝&抓到需要的資料吧?

Play Scraper 的使用結果 7 明明寫 5,840 則評論怎麼會只有 43 筆資料? 怎麼可能只有43筆資料!

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊為什麼網路爬蟲程式很容易失效?
• 公司出於優化網站體驗的目的對網站做改版/更新，導致爬蟲程式定位失敗 • 公司新增反爬蟲機制來阻擋爬蟲程式抓取資料 • 資料本身是公司的寶貴資產(?) • 爬蟲程式帶來無效的網路流量，無法幫公司帶來產品/廣告收益 • 消耗的網路流量會影響其他用戶的瀏覽體驗(變慢) • 典型的反爬蟲機制 • ex: header, captcha, IP, 帳號, referer, cookie, … 等等 • 雖然有大神熱心開源網路爬蟲程式，但通常只會在短時間內有效! (就像我們目前遇到的狀況!) • 爬蟲界名言: 開發一時爽，維護火葬場 • 因此也衍生出許多專門幫公司爬資料的產業/工作 8 有開源專案很便利沒錯，但自身還是但自己還是得具備資料工程的能力來應對突發狀況!

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊什麼是網路爬蟲?
9 電腦/手機瀏覽器目標網站 2 3 1. 跟目標網站說需要什麼資料 1 2. 目標網站回傳請求的資料(程式碼) 3. 透過瀏覽器將程式碼轉為漂亮的網頁

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊什麼是網路爬蟲?
10 電腦/手機瀏覽器目標網站 2 3 1. 跟目標網站說需要什麼資料 1 2. 目標網站回傳請求的資料(程式碼) 3. 透過瀏覽器將程式碼轉為漂亮的網頁網路爬蟲就是將 1 和 2 的工作從人工操作改由透過程式來自動收集資料，減少人力成本!

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊網路爬蟲的應用場景
– 風險管理 11 企業倒閉會導致公司放款的損失，透過網路爬蟲能自動收集企業的(負面)新聞在第一時間控制風險，避免損失擴大! 大同染整公司宣佈於 10/29 倒閉實際上早已於 9/10 就陸續傳出負面

– 投資 12 投資人會透過股票的交易量/金額走勢來計算技術指標找出有利可圖的投資標的。透過網路爬蟲能自動、大規模的收集上市櫃股票資訊，提升獲利的機會

– 網路評論 13 公司 APP 中功能繁雜，在進行版本更新時難免會出現異常狀況，影響客戶正常使用透過網路爬蟲程式可以即時收集客戶反饋的問題，並提供給資訊部門進行程式優化/除錯希望增加新功能無法登入APP 反饋APP 不好用

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊網路爬蟲的進行方式
14 1 輸入要去的網站的網址，如聯合新聞的網站 2 取得聯合新聞網的網站資料平常查資料是跟瀏覽器說需要哪個網址的資料在 Python 中也是同樣的邏輯，先跟 Python 說要去哪個網站，後面再設法剖析取得的資料

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊網路爬蟲練習案例
• 案例1: 聯合新聞網新聞 • 練習目標: 設定要爬取資料的目標 • 練習目標: 利用開發者工具定位資料 • 練習目標: 透過 Python 發送請求和剖析資料 • 案例2: 股票爆料同樂會 • 練習目標: 觀察網站架構 • 練習目標: 透過開發者工具檢索資料 • 練習目標: 透過 Python 請求多則資料 • 案例3: Google Play • 練習目標: 了解 Google Play 網站的網站架構 • 練習目標: 複雜網站的反爬蟲機制與應對方式 • 練習目標: 透過 Python 爬取 Google Play 的留言資料 15

– 聯合新聞網 • 先到聯合新聞網的即時新聞區打開任一則新聞 16

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊盤點要收集的新聞資料
17 https://udn.com/news/story/10930/8395090 ?from=udn-ch1_breaknews-1-cate1-news 1 • 問號後面的資料是 query string ，是公司用來收集客戶資料的參數，拿掉不會影響到瀏覽網頁 • 這段參數其實記錄了使用者是從要聞區的新聞而進入這則新聞 1 2 我們感興趣的內容，包含了 a. 類型 b. 標題 c. 時間 d. 內容 e. Hashtag 2a 2b 2c 2d 2e

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊透過開發者工具檢視網頁的原始碼
18 先對網頁點擊右鍵接著點檢查可以看到網頁的原始碼

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊定位需要的資料
19 滑鼠在原始碼上移動時，左邊的新聞頁面會自動出現文字框標示出目前原始碼對應的位置新聞標題的元素名稱: <h1 class="article-content__title"> 嘗試找出下列元素的元素名稱 • 新聞時間: <time class="article-content__time"> • 新聞類型: <nav class="article-content__breadcrumb"> • 新聞內容: <section class="article-content__editor "> • Hashtag: <section class="keywords">

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊開啟今天活動的教材連結
• Google 搜尋 tlyu0419 的 github，找到今日活動的 repositories • https://github.com/tlyu0419/dyu_text_mining 21 1 2 3 4

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊聯合新聞爬蟲實作
• 開啟 Github 中的 Colab 連結進行實作 22

– 股票爆料同樂會 23 Google 搜尋股票爆料同學會，並進入網站

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊觀察網站架構
24 打開開發者工具並切換到網路的頁籤不斷往下滾動左邊的網頁來加載更多新貼文觀察看看右邊的開發者工具頁面中發生了什麼事情?

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊要怎麼找到需要的網路封包?
25 2 3 1 2 1 3 漂亮的網站其實是由許多網路封包組合而成 • 有些負責讀取網站的icon • 有些負責讀取貼文的內容 • 有些負責讀取大頭貼 • … 爬蟲工程師的任務就是要從上百/千個網路封包中找到需要的資料但是要如何找到呢? 從貼文中的訊息進行反向檢索，利用貼文中出現的關鍵詞回去找哪些封包有出現這些關鍵詞最好檢索英文&有獨特性的字詞會比較容易找到資料於左邊的開發者工具中按 Ctrl + F 然後在左側數據要查詢的關鍵詞就能找到有出現關鍵詞的網路封包

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊拆解網路封包的使用方式
26 2 3 1 4 5 2 3 1 4 5 點擊檢索到的網路封包右側的回應中會出現檢索到的關鍵詞與區塊中間也會反白出對應的網路封包，繼續點擊該網路封包這時候會看到該網路封包的網址與查詢參數。中間遮住的網路封包關鍵詞是什麼? 關鍵詞: _____________ 將封包中的關鍵詞放入篩選器進行檢索，觀察有多少個類似的網路封包? 查詢參數間的差異在哪裡?

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊股票爆料同學會爬蟲實作
• 開啟 Github 中的 Colab 連結進行實作 27

– Google Play • 請大家先到 Google 搜尋 google Play e點通，並進入頁面 28

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊找到
Google Play 的 APP 評論區 29 1 2 1 2 點擊 “評分與評論” 右方的箭號出現評論的互動視窗，往下滑動可以加載更多貼文

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊檢索
Google Play 評論資料的網路封包 30 1 3 1 2 對中間的互動視窗點右鍵 2 點擊檢查 3 點擊網路 4 使用前面學會檢索網路封包的技巧嘗試找出取得評論資料的API URL 名稱: _________________

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊拆解
Google Play 的 API 31 查詢參數太複雜時，可以切換至承載(payload) 檢視轉換過的資料請比較一下這幾個請求中，在查詢字串參數和表單資料有哪些地方會有不同? 查詢字串: __________ 表單資料: __________ 1 1 2 2

Google Play 的 API • 進一步比較，其實差異是在哪裡 • 後面的請求，其實是來自前面的回應 • 差不多就是一個巡迴 32 2 1 經過比較後，主要改變的地方在於右方標註的兩處 1 的變化有規律，每個請求都會在最前面的位數加1 2 的變化看不太出來變化的規律，但是查詢這段文字會發現其實來自於前次請求(3)中回應的內容 3

Google Play 的 API 33 Python Google Play API 預先建立 API 需要的查詢與請求參數 2 1 1 透過 Python 夾帶查詢與請求參數跟 Google Play 的 API 請求資料 2 3 查詢與請求參數 3 4 4 Google Play 的 API 回傳APP 評論以及神秘的Payload 字串更新查詢與請求參數接著展開下一輪的資料請求

Play APP 評論爬蟲實作 • 開啟 Github 中的 Colab 連結進行實作 34

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊複雜網站的應對方式
• 有時候網站會設定許多&複雜的反爬蟲機制來阻擋爬蟲，基於技術能力 / 時間 / 金錢等等因素沒辦法順利爬取資料時… • 可以考慮的應對方式 • 繼續透過 Request 硬幹 • 有時間還是可以嘗試這個方法，會有很多學習與收穫 • Selenium • 透過Python 開啟一個瀏覽器&操作(滾視窗、點擊連結) • 接著透過 Python 讀取網頁的原始碼進行剖析 • 缺點是 Selenium 的驅動器需要頻繁隨著瀏覽器的版本進行更新 • PyautoGUI • Python 的按鍵精靈，直接操作電腦的滑鼠/鍵盤 • 完成加載資料後，將網頁原始碼做保存 • 透過 Python 讀取&剖析網頁原始碼 35

Play 爬蟲 – 讀取更多資料 • Demo • 透過 PyAutoGUI 來反覆送出滾動滑鼠的指令，達成爬蟲的目的 36

Play 爬蟲 – 保存網頁資料 37 2 1 1 透過 PyAutoGUI 加載完資料後，點擊右鍵另存新檔 2 將網頁存為檔案，存檔類型選擇網頁，完整(*.html)

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊透過
Python 定位與剖析資料 38 留言的元素名稱: <div class="RHo1pe"> 嘗試找出下列元素的元素名稱 • 客戶名稱: <div class="X5PpBb"> • 留言評分: <'div class="iXRFPc"> • 留言時間: <span class="bp9Aid"> • 留言內容: <div class="h3YV2d">

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊初步整理&分析APP評論資料
• 將剖析的資料存為 Pandas DataFrame 就可以進行分析囉! 40

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊富邦證券-e點通
分數變化 41 分數從谷底翻升 APP 的分數又再次探底… 分數跌到谷底分數突然衝破天際分數的變化固然很有趣，但也過度簡化了資訊，看不到分數變化背後的故事分數遇到亂流，每個月都在大幅變動很快的分數又回跌

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊回顧長官的指示
43 最近公司(富邦證券)的市佔率有下降的趨勢，請數據部門幫忙分析可能的原因，並根據分析發現提供公司一些經營建議

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊開啟今天活動的教材連結
• Google 搜尋 tlyu0419 的 github，找到今日活動的 repositories • https://github.com/tlyu0419/dyu_text_mining 44 1 2 3 4

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊初步了解評論資料
• 請至 Github 下載 app 的評論資料 • 觀察 score 和 text 的欄位，嘗試找出 5 個客戶經常稱讚/抱怨 APP 的地方 45

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊文本資料視覺化
– 文字雲 • 想法 • 先計算語料庫中各個詞的重要性，再依照詞的重要性來設定大小 • 優點 • 簡單、直覺 • 限制 • 吃重斷詞的結果 • 詞的重要性不容易評估 • 不容易獲得商業洞察 46 Ref: wordcloud · PyPI CUBE APP 的客戶評論畫文字雲很容易，但難點在於如何畫出具有商業價值的文字雲

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊文字雲實作
• Python 實作 • 中文字體設定 • 中文斷詞 • 計算詞頻 • 繪製文字雲 • 優化文字雲 47

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊繪製不同滿意度的文字雲
• 透過滿意度分數繪製不同的文字雲，讓分析圖更有意義 48 5分的文字雲 1分的文字雲

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊文字雲的限制
• 按照滿意度分數來繪製不同的文字雲確實可以讓分析圖比較有意義，但是… • 滿意度分數的顆粒度可能還是不夠細緻 • 或者有些資料本身就沒有標註結果 • 如果要回答客戶有多少種問題，以及不同問題的數量，就需要進行文本分群 49 1分的文字雲抱怨的議題1，數量: ?? 抱怨的議題2，數量: ?? 抱怨的議題3，數量: ?? 抱怨的議題n，數量: ??

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊大型語言模型
+ 文本分群 50 • 想法 • 透過大型語言模型協助我們將文本投影至文本的向量空間，讓語義相近的句子距離靠近，無關的句子的距離遙遠 • 接著再進行分群分析，找出文本的分群 • 優點 • 幾乎不用對文本進行預處理，可以直接進行文本向量化 • 透過分群分析方法來對客戶的評論做自動分群

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊文本分群實作
• Python 實作 • 文本轉向量 • 文本分群 • 找合適的分群組數 • 檢視文本分群的效果(excel) 51

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊所以有哪些討論話題與數量?
52

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊文本分群+視覺化
53 平均分數: 2.63分數量: 2672(15.8%) 平均分數: 1.74分數量: 1572(9.3%) 平均分數: 3.12分數量: 1540(9.1%) 平均分數: 4.60分數量: 1994(11.8%) 平均分數: 2.14分數量: 1499(8.9%) 平均分數: 2.61分數量: 2621(15.5%) 平均分數: 1.90分數量: 2102(12.4%) 平均分數: 4.51分數量: 1079(6.4%) 平均分數: 4.49分數量: 956(5.7%) 平均分數: 1.61分數量: 861(5.1%)

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊其他優化分群與視覺化的技巧
54

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊找各分群中的代表文本
55 0 1 4 2 3 很爛，一直閃退閃退一直進不去 APP一直閃退閃退閃退閃退改版後一直閃退 5 當掉很多次 0.857 0.872 0.887 0.855 0.866 0.797 群中心群中心法計算每個點距離群中心的距離，以最接近中心的文本作為代表文本最大相似度法計算群內每個點彼此間的相關係數，取平均分數最高的樣本作為代表文本

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊斷詞器與結果比較
56 Ref: google/sentencepiece: Unsupervised text tokenizer for Neural Network-based text generation. 晚上線上客服不好，自己兩分鐘就能解決的問題還要花十分鐘跟八＋九客服鬼打牆跨行轉帳免費次數無預警取消，沒注意看被扣了多筆手續費晚上 / 線上 / 客服 / 不好 / ， / 自己 / 兩分鐘 / 就 / 能 / 解決 / 的 / 問題 / 還要 / 花 / 十分 / 鐘跟八 / ＋ / 九 / 客服 / 鬼 / 打牆晚上 / 線上客服 / 不好 / , / 自己 / 兩分鐘 / 就能 / 解決 / 的問題 / 還要 / 花 / 十分鐘 / 跟 / 八 / + / 九 / 客服 / 鬼打牆跨行 / 轉帳 / 免費次數 / 無 / 預警 / 取消 / ， / 沒 / 注意 / 看 / 被扣 / 了 / 多筆 / 手續費跨行轉帳 / 免費 / 次數 / 無預警 / 取消 / , / 沒 / 注意 / 看 / 被扣 / 了 / 多筆 / 手續費 jieba sentencepiece 其實還是可以建立自定義詞典來優化 jieba 的斷詞結果但就是會需要投(不少)時間處理正確性與顆粒度的議題

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊找分群中的代表關鍵詞
57 Ref: MaartenGr/BERTopic: Leveraging BERT and c-TF-IDF to create easily interpretable topics. Bertopic 提供了端到端的 topic modeling 解決方案，但真正創新之處是提出 class-based 的 tf-idf 的方法來找分群的代表詞(而且效果不錯) Classic TF-IDF class-based TF-IDF t: term, d: document, c: class A: 各類文本的平均詞數

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊總結
• 不要害怕去擔任指出方向的角色 • 由於業務部門缺乏資料科學的知識與技術，較難從宏觀的角度去檢視是否有其他更重要的問題需要解決 • 當然數據部門也得有更大的企圖心去幫企業解決問題，工作起來也會比較有成就感 • 要有把手用髒的勇氣和決心 • 發現問題只是解決問題的第一步，更重要的是你想怎麼解題 • 業務單位有自己的 KPI 要被，多站在業務單位的角度去思考會讓專案比較容易落地 59

游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Any
questions?

網路爬蟲與文字探勘 證券公司 App 評論分析的資料科學旅程

網路爬蟲與文字探勘 證券公司 App 評論分析的資料科學旅程

More Decks by tlyu0419

Featured

Transcript

網路爬蟲與文字探勘證券公司 App 評論分析的資料科學旅程

網路爬蟲與文字探勘證券公司 App 評論分析的資料科學旅程