Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
應用自然語言處理於金融業KYC之創新實踐
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
circlelychen
October 25, 2020
Technology
980
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
應用自然語言處理於金融業KYC之創新實踐
circlelychen
October 25, 2020
More Decks by circlelychen
See All by circlelychen
運用非監督式學習技法打造風險警示系統:以國際貿易作業場景為例
circlelychen
0
300
Build Mandarin AI Conversational Agent with Rasa
circlelychen
0
330
打造面向金融場景的中文自然語言理解引擎
circlelychen
0
200
Other Decks in Technology
See All in Technology
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
2k
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
4
1.5k
【2026年版】 ベクトル検索とEmbedding最前線
mocobeta
14
3.8k
Kiro Ambassador を目指す話
k_adachi_01
0
110
アンオフィシャルな、オフィシャルからのお願い
wyamazak_devrel
0
140
2026 TECHFRESH 畢業分享會 - 開發日常大解密!從領域驅動到企業級上線
line_developers_tw
PRO
0
1.3k
Bucharest Tech Week 2026 - Reinventing testing practices in the AI era
edeandrea
PRO
1
170
AIAU_UMEMOGU_ninomiya_slide
ninomiya_ii
0
220
iAEONの段階的リアーキテクト戦略 / iAEON's_Gradual_Re-architecture_Strategy
aeonpeople
0
230
自分が詳しくない領域でAIを使う #プロヒス2026
konifar
11
3.4k
10年間のブログ発信を振り返って見えたWebアプリケーションエンジニアとしての軌跡
stefafafan
0
150
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
0
170
Featured
See All Featured
Joys of Absence: A Defence of Solitary Play
codingconduct
1
400
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
250
Optimizing for Happiness
mojombo
378
71k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Docker and Python
trallard
47
3.9k
Building Applications with DynamoDB
mza
96
7.1k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
240
HDC tutorial
michielstock
2
720
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Transcript
1 應⽤⾃然語⾔處理於⾦融業 KYC之創新實踐 陳皓遠 中國信託商業銀⾏ 數據暨科技研發處
2 2014 2010 2018 關於我
3 ⽬標設定 希 望 今 ⽇ 的 經驗分享 能 讓
各 位 產 ⽣ 思維的改變 付 出 具體的⾏動
4
5 q 策略思考的原則 q 中信AI研發專案的策略 創新中隱含的策略
6 策略是 “Strategy is a deliberate search for a plan
of action that will develop a business‘s competitive advantage and compound it.” Bruce Henderson, The Origin of Strategy, 1989/11 資料來源: https://hbr.org/1989/11/the-origin-of-strategy 謹慎尋求⼀項⾏動計畫,⽤以發展企業的競爭優勢
8 策略思考的原則 在 巢 狀 結 構 中 願 景
有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織
9 策略思考的原則 在 巢 狀 結 構 中 願 景
有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 運⽤ … ⼈⼯智慧等優勢, 開發及掌握核⼼技術,加速 推動產業及經濟的數位轉 型。 ~ 蔡英⽂ 中華⺠國國慶演說 2020/10
10 策略思考的原則 在 巢 狀 結 構 中 願 景
有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 以分⾏服務、作業流程數 位化、⾦融服務智能化、 跨業策略合作四⼤策略,打 造 「 無 所 不 在 、 無 時 不 在」的銀⾏服務。 ~ 陳總經理 佳⽂ 天下經濟論壇 2019/1
11 策略思考的原則 在 巢 狀 結 構 中 願 景
有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 聚焦4⼤AI場景,分別為⾏ 銷溝通、客⼾體驗、流程優 化、⾵險控管。 ~ 王處⻑ 俊權 數據暨科技研發處 2020/10
12 中信AI團隊的策略 掌握關鍵技術以 垂直式 AI (Vertical AI) 驅動⾦融場景下的數位轉型 • 中信為⾦融專業公司,既有業務場景適合⽤AI技術來強化經營
• 通⽤的AI 技術⾨檻不再⾼不可攀 • 個別場景的應⽤有差異性、資料來源有專屬性、內容有保密性 理 由 行銷溝通 流程優化 風險控管 專屬或機敏資料 AI 技術核⼼ 完整的產品 專屬領域的知識 垂直式 AI 實 踐 方 法
13 q 探索與定義問題 • 解決⽅案之實踐 • 成果展現 KYC的創新規劃與實踐
14 洗錢防制作業(AML/KYC) 為⾦融業的關鍵場景 2012.12 2016.8 2016.11 • 漠視鉅額交易⾵險未申報 • 實際查核不確實
兆豐銀 (57億) • 無視警告、忽視可疑 交易 匯豐 (570億) • 掩蓋可疑交易 中國農業銀⾏(68億) 2014.8 2016.10 • 無視警告、未加以改善 渣打(90億+暫停業務) • 持續和嚴重缺乏認識 瑞⼠安勤私⼈銀⾏(關閉業務) • 違反洗錢防制法的裁罰⾦額嚴重侵蝕獲利 • 因應法令遵循,商業銀⾏業務承作多半需要經過 AML/KYC 的檢核
15 姓名檢核的效能 為AML/KYC的關鍵議題 CDD盡職調查 CDC名單掃描(姓名檢核) SAR交易監控 法⾦ 個⾦ 觀 察
發 現 單⼀CDC案件連 結負⾯新聞⾼達 672則 CDC案件觸及 負⾯新聞判讀 22K 件/⽉ • CDC 名單掃描(姓名檢核)為 AML/KYC 的必要流程 • 負⾯新聞判讀為 CDC 名單掃描(姓名檢核)的主要⼿段 角 色 • 負⾯新聞判讀耗時、費⼒、⼈⼯易判讀錯誤,造成經營⾵險 挑 戰
16 新聞閱讀智能化 為強化姓名檢核效能的關鍵步驟 負⾯新聞判讀執⾏原貌 洗 錢 防 治 系 統
AML/KYC 審 查 ⼈ 員 瀏 覽 器 提 供 負 ⾯ 新 聞 連 結 清 單 依 序 ⽤ 瀏 覽 器 擊 點 閱 讀 痛 點 • 連結充斥事件相同的報導,差異僅來⾃不同媒體 • 無其他資訊協助初篩分群 • 網⾴需依序⼈⼯開啟且載⼊時間冗⻑(平均3秒/篇) • 無標⽰客⼾與新聞內容的關聯性 需 求 • 提取關鍵資訊加快閱讀速度與閱讀品質 • 以事件的發⽣時間來排序 • 以事件為主體的閱讀體驗 • ⾃動事先抓取所有新聞
17 • 探索與定義問題 q 解決⽅案之實踐 q 演算法設計與可⾏性驗證 q 系統設計與落地整合 •
成果展現 KYC的創新規劃與實踐
18 閱讀智能化規劃三個步驟實踐與驗證可⾏性 Modeling NLP Core : DBOW model Clustering
BIRCH: Balanced Iterative Reducing and Clustering Using Hierarchies • • • • • Markov bi-gram model • Bayesian classifier • Context-Rule ). "& $ # ').+ - ,!*/% Y!xo4< 2Ze p' j_ =X5El0 +Y!,/j_ -qi %#. c76)o* lYD.b YP@Zep' A`C (J U:d xo' pZeN&3 V?fL2nSB znSW&4OZe' M{x…… _ =|5El0+r a]-k8\xw A`C^_ (Q; $HRGlhg:z tyj_ K~-%# drh76xwW" Ts}3> d Im 9 x1wN8&u ?V16SB z6S {xvW&4O3950 [F{xpZeW&4 O23618@ Pre-processing NLP Core ) )( 1 2 3
19 ⾃然語⾔處理 (NLP) 擷取⽂本特徵 1 法院前祕書長林錫 山(見圖,本報資 料照片)涉收回扣 貪瀆案,台北地方 法院昨日審結,合
議庭認定林利用職 權壟斷立法院電腦 資訊採購業務,圖 利廠商收回扣,犯 行敗壞官箴、重創 公務員的廉潔形 象,依收取回扣等 8罪將他判刑16 年,褫奪公權6 年,沒收已繳犯罪 所得3950萬元,並 追繳沒收來源不明 犯罪所得2億3618 萬多元。 新聞 自然語言處理 語意分析與實體擷取 語 言 專 家 規 則 篩 選 語意⾓⾊ 實體識別 指代消解 斷詞 詞性標記 詞幹提取 特徵 林錫山 回扣 貪瀆案 地方法院 圖利 判刑 褫奪公權 追繳不明犯罪所得 CKIPTAGGER NLTK spaCy • 由命名實體識別、語意⾓⾊標記、…等擷取標記 • 領域專家協作產出特徵
20 將特徵轉成向量 2 文本嵌入模型 特性與優勢 特徵 林錫山 回扣 貪瀆案 地方法院
圖利 判刑 褫奪公權 追繳不明犯罪所得 ... 向量 0.453 0.789 0.786 • 由 Tomas Mikolov 於2013年提出 • 類神經網路的模型 • 把⽂本映射到有限維度的向量空間 • 向量間的距離反映出語意相似度 gensim • ⾃監督式學習的⽂本嵌⼊ (Doc2Vec) 模型
21 相似向量結集成群 3 • 平均側影法 (Average silhouette method) • ⾮監督式分層聚類演算法BIRCH
metasploit scikit-learn
22 個⾦ OP 姓名檢核啟動 業務驅動之KYC流程 負面新聞聚類任務啟動 1 2 3 Ø
洗錢防制系 統根據道瓊 ⿊名單啟動 掃描程序 Ø 道瓊名單命 中即發起姓 名檢核程序 Ø 姓名檢核程 序啟動負 ⾯新聞聚 類任務 • 新聞分群 – 減少重複閱讀 • 關鍵訊息標注 – 加速文本審閱 洗 錢 防 治 系 統 Ø 貿易融資 Ø 徵信 Ø 進出⼝ Ø 跨⾏匯款 Ø 保單承作 Ø 開⼾ Ø 額度控管 Ø … 法⾦ OP ⾦交 OP ⾵險 OP 櫃員 ARM/RM 理專 即時KYC 批次KYC Ø 定期審核 負⾯新聞閱讀系統落地規劃 • 洗錢防治系統每次送⼊⼀群新聞連結清單,智能閱讀系統回覆⼀個網⾴連結 • 基於 Client-Server 架構使⽤ Restful API 與洗錢防制系統介接
23 負⾯新聞閱讀系統功能設計 I. 核⼼系統串接 III.前台OP查看結果 II. 後台IT監控與BI需求 洗 錢 防
治 系 統 新 聞 閱 讀 核 ⼼ 系 統 IT⼈ 員 新 聞 閱 讀 後 台 系 統 AML/KYC 審 查 ⼈ 員 新 聞 閱 讀 前 台 系 統
24 負⾯新聞閱讀系統涉及元件
25 負⾯新聞閱讀系統設計與實作 (I) • 提供 Asynchronous API 給予洗錢防治系統啟動新聞閱讀任務 目 的
Restful API Service
26 負⾯新聞閱讀系統設計與實作 (I) • 利⽤Callback 機制通知洗錢防治系統新聞閱讀任務完成 目 的 Worker Daemon
27 負⾯新聞閱讀系統設計與實作 (II) • 前端⾴⾯給予OP查看新聞閱讀結果 目 的
28 負⾯新聞閱讀系統設計與實作 (III) • 後台系統給予IT監控與執⾏BI需求 目 的
29 • 問題探索與定義問題 • 解決⽅案之實踐 q 成果展現 q 系統展⽰ q
效益揭露 q 科研成就 KYC的創新規劃與實踐
30 負⾯新聞閱讀服務展⽰ 相 同 主題聚類 ⼈ 、 事 件 、
地 點 關鍵標註 由 近 ⾄ 遠 的 時序排列
31 負⾯新聞閱讀服務效能展現 • 姓名檢核量成 ⻑ 4倍 、 新聞涵蓋率達 85% 1.4萬
篇 / ⽉ 14% Phase 1 傳統人工 閱讀 2019 Q3 定期審查啟用 2019 Q4 海外分行啟用 2020 Q1 即時姓名檢核 2020 Q2 簡體中文新聞支援 9K / ⽉ 35.5K / ⽉ 7.4萬 篇 / ⽉ 額度控管 貿易融資 定期審查 跨⾏匯款 保單承作 進出⼝ 開⼾ 徵信 聚類服務涵蓋 85% 道瓊負⾯新聞 業務 場景 姓名 檢核量 新聞 涵蓋率 繁體中⽂、英⽂ 繁體中⽂、英⽂、簡體中⽂ 語系 14% 71% Phase 1 Phase 2 傳統人工 閱讀 定期審查
32 負⾯新聞閱讀專案之創新科研成果 論⽂⼊選於國際頂級AI學術 會議( IJCAI 2019)專題研討 會 論 ⽂ 發
表 2019.8 取得⼀新型專利(2019)與 ⼀發明專利(2020) 專 利 申 請 ⾃建科技強化⾵險管控提報 Gartner Eye on Innovation Award 2019獲獎 Gartner ⾦ 融 創 新 獎 專利取得 獎項獲選 論文發表 2019.10 2020.5
33 結語 • 策略規劃願景要與巢狀結構的上位⼀致,戰術要因地制宜有差異化 • 有效導⼊開放源碼與社群資源⽀援專案的概念驗證進⽽實作落地 • ⽤商業思維闡述效益 • 關鍵的場景、關鍵的議題
• 完整的專案涵蓋問題探索、解決⽅案驗證、落地實踐與維護三個⾯向 • 適切的⽅法、合理的機制 • 有限的資源、可控的時程 • 思考及佈局專案執⾏以外的外部效益,擴⼤效益⾯與提升團隊話語權
34 QA時間