Upgrade to Pro — share decks privately, control downloads, hide ads and more …

應用自然語言處理於金融業KYC之創新實踐

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 應用自然語言處理於金融業KYC之創新實踐

Avatar for circlelychen

circlelychen

October 25, 2020
Tweet

More Decks by circlelychen

Other Decks in Technology

Transcript

  1. 3 ⽬標設定 希 望 今 ⽇ 的 經驗分享 能 讓

    各 位 產 ⽣ 思維的改變 付 出 具體的⾏動
  2. 4

  3. 6 策略是 “Strategy is a deliberate search for a plan

    of action that will develop a business‘s competitive advantage and compound it.” Bruce Henderson, The Origin of Strategy, 1989/11 資料來源: https://hbr.org/1989/11/the-origin-of-strategy 謹慎尋求⼀項⾏動計畫,⽤以發展企業的競爭優勢
  4. 8 策略思考的原則 在 巢 狀 結 構 中 願 景

    有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織
  5. 9 策略思考的原則 在 巢 狀 結 構 中 願 景

    有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 運⽤ … ⼈⼯智慧等優勢, 開發及掌握核⼼技術,加速 推動產業及經濟的數位轉 型。 ~ 蔡英⽂ 中華⺠國國慶演說 2020/10
  6. 10 策略思考的原則 在 巢 狀 結 構 中 願 景

    有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 以分⾏服務、作業流程數 位化、⾦融服務智能化、 跨業策略合作四⼤策略,打 造 「 無 所 不 在 、 無 時 不 在」的銀⾏服務。 ~ 陳總經理 佳⽂ 天下經濟論壇 2019/1
  7. 11 策略思考的原則 在 巢 狀 結 構 中 願 景

    有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 聚焦4⼤AI場景,分別為⾏ 銷溝通、客⼾體驗、流程優 化、⾵險控管。 ~ 王處⻑ 俊權 數據暨科技研發處 2020/10
  8. 12 中信AI團隊的策略 掌握關鍵技術以 垂直式 AI (Vertical AI) 驅動⾦融場景下的數位轉型 • 中信為⾦融專業公司,既有業務場景適合⽤AI技術來強化經營

    • 通⽤的AI 技術⾨檻不再⾼不可攀 • 個別場景的應⽤有差異性、資料來源有專屬性、內容有保密性 理 由 行銷溝通 流程優化 風險控管 專屬或機敏資料 AI 技術核⼼ 完整的產品 專屬領域的知識 垂直式 AI 實 踐 方 法
  9. 14 洗錢防制作業(AML/KYC) 為⾦融業的關鍵場景 2012.12 2016.8 2016.11 • 漠視鉅額交易⾵險未申報 • 實際查核不確實

    兆豐銀 (57億) • 無視警告、忽視可疑 交易 匯豐 (570億) • 掩蓋可疑交易 中國農業銀⾏(68億) 2014.8 2016.10 • 無視警告、未加以改善 渣打(90億+暫停業務) • 持續和嚴重缺乏認識 瑞⼠安勤私⼈銀⾏(關閉業務) • 違反洗錢防制法的裁罰⾦額嚴重侵蝕獲利 • 因應法令遵循,商業銀⾏業務承作多半需要經過 AML/KYC 的檢核
  10. 15 姓名檢核的效能 為AML/KYC的關鍵議題 CDD盡職調查 CDC名單掃描(姓名檢核) SAR交易監控 法⾦ 個⾦ 觀 察

    發 現 單⼀CDC案件連 結負⾯新聞⾼達 672則 CDC案件觸及 負⾯新聞判讀 22K 件/⽉ • CDC 名單掃描(姓名檢核)為 AML/KYC 的必要流程 • 負⾯新聞判讀為 CDC 名單掃描(姓名檢核)的主要⼿段 角 色 • 負⾯新聞判讀耗時、費⼒、⼈⼯易判讀錯誤,造成經營⾵險 挑 戰
  11. 16 新聞閱讀智能化 為強化姓名檢核效能的關鍵步驟 負⾯新聞判讀執⾏原貌 洗 錢 防 治 系 統

    AML/KYC 審 查 ⼈ 員 瀏 覽 器 提 供 負 ⾯ 新 聞 連 結 清 單 依 序 ⽤ 瀏 覽 器 擊 點 閱 讀 痛 點 • 連結充斥事件相同的報導,差異僅來⾃不同媒體 • 無其他資訊協助初篩分群 • 網⾴需依序⼈⼯開啟且載⼊時間冗⻑(平均3秒/篇) • 無標⽰客⼾與新聞內容的關聯性 需 求 • 提取關鍵資訊加快閱讀速度與閱讀品質 • 以事件的發⽣時間來排序 • 以事件為主體的閱讀體驗 • ⾃動事先抓取所有新聞
  12. 18 閱讀智能化規劃三個步驟實踐與驗證可⾏性 Modeling NLP Core  : DBOW model Clustering

    BIRCH: Balanced Iterative Reducing and Clustering Using Hierarchies •    •   •   •    • Markov bi-gram model • Bayesian classifier • Context-Rule   ). "& $ # ').+ - ,!*/% Y!xo4<€ 2Ze p'…j_ =X5El0 +Y!,/j_ -†qˆi %#. c76)o* €lYD.b YP@Zep' …A`C (J U:d xo'…pZeN&3 V?fL2nSB znSW&4OZe' …M{x…… _ =|5El0+r a]-k8\„xw‚ ƒA`C^_ (Q; $HRGlhg:z tyj_ K~-†%# drh76xwW" Ts}3> d Im 9 x1wN8&u ?V16SB z6S {xv‡W&4O3950€ [F‡{xpZeW&4 O23618€@ Pre-processing NLP Core ) )( 1 2 3
  13. 19 ⾃然語⾔處理 (NLP) 擷取⽂本特徵 1 法院前祕書長林錫 山(見圖,本報資 料照片)涉收回扣 貪瀆案,台北地方 法院昨日審結,合

    議庭認定林利用職 權壟斷立法院電腦 資訊採購業務,圖 利廠商收回扣,犯 行敗壞官箴、重創 公務員的廉潔形 象,依收取回扣等 8罪將他判刑16 年,褫奪公權6 年,沒收已繳犯罪 所得3950萬元,並 追繳沒收來源不明 犯罪所得2億3618 萬多元。 新聞 自然語言處理 語意分析與實體擷取 語 言 專 家 規 則 篩 選 語意⾓⾊ 實體識別 指代消解 斷詞 詞性標記 詞幹提取 特徵 林錫山 回扣 貪瀆案 地方法院 圖利 判刑 褫奪公權 追繳不明犯罪所得 CKIPTAGGER NLTK spaCy • 由命名實體識別、語意⾓⾊標記、…等擷取標記 • 領域專家協作產出特徵
  14. 20 將特徵轉成向量 2 文本嵌入模型 特性與優勢 特徵 林錫山 回扣 貪瀆案 地方法院

    圖利 判刑 褫奪公權 追繳不明犯罪所得 ... 向量 0.453 0.789 0.786 • 由 Tomas Mikolov 於2013年提出 • 類神經網路的模型 • 把⽂本映射到有限維度的向量空間 • 向量間的距離反映出語意相似度 gensim • ⾃監督式學習的⽂本嵌⼊ (Doc2Vec) 模型
  15. 22 個⾦ OP 姓名檢核啟動 業務驅動之KYC流程 負面新聞聚類任務啟動 1 2 3 Ø

    洗錢防制系 統根據道瓊 ⿊名單啟動 掃描程序 Ø 道瓊名單命 中即發起姓 名檢核程序 Ø 姓名檢核程 序啟動負 ⾯新聞聚 類任務    • 新聞分群 – 減少重複閱讀 • 關鍵訊息標注 – 加速文本審閱 洗 錢 防 治 系 統 Ø 貿易融資 Ø 徵信 Ø 進出⼝ Ø 跨⾏匯款 Ø 保單承作 Ø 開⼾ Ø 額度控管 Ø … 法⾦ OP ⾦交 OP ⾵險 OP 櫃員 ARM/RM 理專 即時KYC 批次KYC Ø 定期審核 負⾯新聞閱讀系統落地規劃 • 洗錢防治系統每次送⼊⼀群新聞連結清單,智能閱讀系統回覆⼀個網⾴連結 • 基於 Client-Server 架構使⽤ Restful API 與洗錢防制系統介接
  16. 23 負⾯新聞閱讀系統功能設計 I. 核⼼系統串接 III.前台OP查看結果 II. 後台IT監控與BI需求 洗 錢 防

    治 系 統 新 聞 閱 讀 核 ⼼ 系 統 IT⼈ 員 新 聞 閱 讀 後 台 系 統 AML/KYC 審 查 ⼈ 員 新 聞 閱 讀 前 台 系 統
  17. 30 負⾯新聞閱讀服務展⽰ 相 同 主題聚類 ⼈ 、 事 件 、

    地 點 關鍵標註 由 近 ⾄ 遠 的 時序排列
  18. 31 負⾯新聞閱讀服務效能展現 • 姓名檢核量成 ⻑ 4倍 、 新聞涵蓋率達 85% 1.4萬

    篇 / ⽉ 14% Phase 1 傳統人工 閱讀 2019 Q3 定期審查啟用 2019 Q4 海外分行啟用 2020 Q1 即時姓名檢核 2020 Q2 簡體中文新聞支援 9K / ⽉ 35.5K / ⽉ 7.4萬 篇 / ⽉ 額度控管 貿易融資 定期審查 跨⾏匯款 保單承作 進出⼝ 開⼾ 徵信 聚類服務涵蓋 85% 道瓊負⾯新聞 業務 場景 姓名 檢核量 新聞 涵蓋率 繁體中⽂、英⽂ 繁體中⽂、英⽂、簡體中⽂ 語系 14% 71% Phase 1 Phase 2 傳統人工 閱讀 定期審查
  19. 32 負⾯新聞閱讀專案之創新科研成果 論⽂⼊選於國際頂級AI學術 會議( IJCAI 2019)專題研討 會 論 ⽂ 發

    表 2019.8 取得⼀新型專利(2019)與 ⼀發明專利(2020) 專 利 申 請 ⾃建科技強化⾵險管控提報 Gartner Eye on Innovation Award 2019獲獎 Gartner ⾦ 融 創 新 獎 專利取得 獎項獲選 論文發表 2019.10 2020.5
  20. 33 結語 • 策略規劃願景要與巢狀結構的上位⼀致,戰術要因地制宜有差異化 • 有效導⼊開放源碼與社群資源⽀援專案的概念驗證進⽽實作落地 • ⽤商業思維闡述效益 • 關鍵的場景、關鍵的議題

    • 完整的專案涵蓋問題探索、解決⽅案驗證、落地實踐與維護三個⾯向 • 適切的⽅法、合理的機制 • 有限的資源、可控的時程 • 思考及佈局專案執⾏以外的外部效益,擴⼤效益⾯與提升團隊話語權