Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Federated Learningとプライバシー保護について

Federated Learningとプライバシー保護について

竹之内隆夫 (Takao Takenouchi)
LINE Corporation / Machine Learning Privacy & Trust Team / Manager

PWS Meetup 2023での発表資料です
https://www.iwsec.org/pws/2022/meetup.html

LINE Developers

March 16, 2023
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. Federated Learningと プライバシー保護について 〜 Federated Learningの概要と LINEのFederated LearningとDifferential Privacyの導⼊事例〜 ⽵之内隆夫

    (Takao Takenouchi) LINE Corporation Machine Learning Privacy & Trust Team Manager 2023.3.16 PWS Meetup 2023 @群⾺⼤学 荒牧キャンパス & Zoom
  2. ⾃⼰紹介 l 所属・⽒名 LINE株式会社 Machine Learning Privacy & Trust Team,

    Manager ⽵之内 隆夫 (たけのうち たかお) l 業務内容 • Privacy Techの事業開発・研究開発 l 経歴 • 前前職・前職も含めプライバシー系で10数年の経歴 • 技術だけでなく法制度や普及促進も • 例︓業界団体「秘密計算研究会」などの⽴ち上げ等 2
  3. Our Team’s Publications Title Conference / WS Authors Out-of-Distribution Detection

    with Reconstruction Error and Typicality- based Penalty WACV2023 Osada, Takahashi, Ahsan, Nishide Fair and Robust Metric for Evaluating Touch-based Continuous Mobile Device Authentication IUI2023 Kudo, Takahashi, Ushiyama, Yamana HDPView: Differentially Private Materialized View for Exploring High Dimensional Relational Data VLDB2022 Kato, Takahashi, Takagi, Cao, Liew, Yoshikawa Network Shuffling: Privacy Amplification via Random Walks SIGMOD2022 Liew, Takahashi, Takagi, Kato, Cao, Yoshikawa PEARL: Private Embeddings and Adversarial Reconstruction Learning ICLR2022 Liew, Takahashi, Ueno Homomorphic Encryption-Friendly Privacy-Preserving Partitioning Algorithm for Differential Privacy BigData2022 Ushiyama, Takahashi, Kudo, Yamana P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model ICDE2021 Takagi, Takahashi, Cao, Yoshikawa Construction of Differentially Private Summaries over Fully Homomorphic Encryption DEXA2021 Ushiyama, Takahashi, Kudo, Yamana Continuous and Gradual Style Changes of Graphic Designs with Generative Model IUI2021 Ueno, Sato Indirect Adversarial Attacks via Poisoning Neighbors for Graph Convolutional Networks BigData2019 Takahashi インターンの成果 トップカンファレンス 3
  4. 概要 l 発表概要 • 連合学習(Federated Learning, FL)の概要を説明 • 連合学習への差分プライバシー(Differential Privacy,

    DP) の適⽤ • LINEのスタンプ推薦へ適⽤した内容についての発表 • DP+FLを実サービスに適⽤した国内初の事例 (発表者が知る限り) l 本発表の⽬的 • 連合学習と差分プライバシーの概要を知りつつ • 実サービスへの適⽤がどのようなものか感じて頂きたい • 実サービスで使われる技術を是⾮⼀緒に作りましょう︕(共同研究・インターン等) 6
  5. ⽬次 l 1. Federated Learning(FL: 連合学習)とは • 1-1. Federated Learningの概要

    • 1-2. 様々なFederated Learning l 2. FLへのDP(Differential Privacy)適⽤ • 2-1. DP(Differential Privacy)とは • 2-2. FL+DPとは l 3. LINEにおけるFL+DFの事例 • 3-1. LINEスタンプ プレミアムとは • 3-2. LINEスタンプ プレミアムにおけるDP+FLの活⽤ l 4. まとめ 7
  6. (1) Server-side Machine Learning (ML) l Centralized server(s) collect data

    and process ML Output Output Output Output Output Output Output Output Training Inference ML 9
  7. (2) On-Device ML Inferencing l Client devices receive global ML

    model and run inference ML Training Global Model Global Model Global Model Global Model Global Model Global Model Global Model Global Model Inference Inference Inference Inference Inference Inference 10
  8. Training Training Training Training Training (3) Federated Learning (FL) l

    Client On-device ML training + server aggregation ML Training Training Training Local Model Local Model Local Model Model Aggregation 11
  9. (3) Federated Learning (FL) l Global model are sent to

    individual devices ML Global Model Global Model Global Model Global Model Global Model Global Model Global Model Global Model Inference Inference Inference Inference Inference Inference Model Aggregation 12
  10. Federated Learningの特徴 l Federated Learningは、データをクライアントに分散したまま学習する⽅法 → 機微データをFLする場合にプライバシー保護に向いている (1) Server-side ML

    (2) On-Device ML Inferencing (3) Federated Learning ⼤量のデータ ⼤量の計算資源 ⼤量データを⽤いた レコメンド など 推論時の 通信が不要 素早いレスポンスが必要な User Interface系の処理 など クライアントのデータを サーバーに送る必要がない プライバシー保護・ パーソナライゼーション など 表︓各⽅式の主な特徴 13
  11. FLのバリエーション l ⼤きくCross DeviceとCross Siloの2種類 15 Cross Device型 Cross Silo型

    クライアント︓多数 データサイズ︓⼩ 通信回線︓従量課⾦ / wifiなど クライアント︓少数 データサイズ︓⼤ 通信回線︓専⽤線など
  12. 参考︓FLの定義や類型などの整理の例 l いくつかの定義や類型が存在するが、例えば2019年に⾏われたworkshop ※1におい て、FLの定義や類型の⽐較がされている※2 ※1 Workshop on Federated Learning

    and Analytics ※2 “Advances and Open Problems in Federated Learning”, https://arxiv.org/abs/1912.04977 Federated learning is a machine learning setting where multiple entities (clients) collaborate in solving a machine learning problem, under the coordination of a central server or service provider. Each clientʼs raw data is stored locally and not exchanged or transferred; instead, focused updates intended for immediate aggregation are used to achieve the learning objective. FLの定義の例 FLの類型と⽐較の例
  13. Federated Leaningのデータ分割の種類 l 主に、データ分割がHorizontalとVerticalの2種類が存在 • Horizontal: 同⼀属性について、ユーザで分割 • Vertical: 同⼀ユーザについて、属性で分割

    ※属性を推定する分野(Federated Transfer Learning)もあるが本資料では割愛 Qiang Yang, Yang Liu, Tianjian Chen, Yongxin Tong, "Federated Machine Learning: Concept and Applications", https://arxiv.org/pdf/1902.04885.pdf 17
  14. Split learning(SplitNN) l NN(Neural network)の途中で分割し、クライアントとサーバ側で連携して学習する処理 • 分割したNNのレイア(cut layer)まで学習し、途中経過を送り、その先のレイヤの学習を続ける https://arxiv.org/pdf/1812.00564.pdf 処理のイメージ

    以下の処理を繰り返して学習 • Forward Propagation • クライアントはCut layerまで学習し、 途中結果をサーバに送信 • サーバが残りを学習 • Back Propagation • サーバは最終層の勾配を計算 • cut layerまでback propagationし、 途中結果をクライアントに送る • クライアントは残りを実施 https://arxiv.org/pdf/1812.03288.pdf レイヤの分割のパターン例 19
  15. 差分プライバシーとは︖ Sensitive Data 𝑫 Noisy Output 区別困難 ≃ 𝝐 で表される程度に

    𝑫′︓neighbor of 𝑫 プライバシー保護された 統計値を提供 22 • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • (ノイズの加算により)いかなる知識との突合にも頑健なプライバシーを提供 ノイズ 付加 ノイズ 付加 適切なノイズ設計が必要
  16. Differential Privacy ~匿名化との対⽐~ 23 匿名化 (k-匿名化[2]等) Differential Privacy プライバシーパラメータ の決定⽅法

    根拠なし 統計的根拠から決定 プライバシー消費の管理 不可 可能 外部知識との突合 匿名化が破綻 頑健 (破綻しない) 複数回のリリース 匿名化が破綻 プライバシー消費を積算 [2] L. Sweeney. k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557–570, 2002. GAFAMやトップ⼤学を中⼼に 研究開発が⾮常に活発
  17. 差分プライバシーの2種類のモデル ノイズ 付加 ノイズ 付加 ノイズ 付加 サーバ サーバ ノイズ

    付加 Central Differential Privacy(CDP) Local Differential Privacy(LDP) サーバーから第三者への統計値の提供時 (サーバー側でノイズ付加) クライアントからサーバーへのデータの収集時 (クライアント側でノイズ付加) 24 本⽇の対象はこちら
  18. ローカル差分プライバシー(LDP)※1 25 メカニズム ℳ: 𝒳 → 𝒮 が (𝝐, 𝜹)-ローカル差分プライバシー

    を満たすとは 任意の⼊⼒の組 𝑥, 𝑥! ∈ 𝒳 および 任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである Pr ℳ 𝑥 ∈ 𝑆 ≤ 𝑒!⋅ Pr ℳ 𝑥" ∈ 𝑆 + 𝛿 ℳ ℳ ℳ ※1 J. C. Duchi, M. I. Jordan, and M. J. Wainwright. Local privacy and statistical minimax rates. FOCS2013 クライアントは ⼀塊のデータ𝑥 をℳに⼊⼒ Server 𝒳 ∈ { } ひとりひとりが 何を送ってきたか 区別が難しい
  19. Federated Learning(連合学習)とは Federated Learning (FL) とは • クライアントで機械学習を実施して 更新情報だけをサーバーが収集 (データはクライアントから出ない)

    解決する課題 • クライアントでしか扱いを許容されない 機微データの活⽤を実現 残存するプライバシーリスク • 更新情報やモデルからのデータ復元 Non-participants of FL Local Update Info Local Update Info Distributing Parameters Update Global Parameters 27
  20. 連合学習におけるプライバシーリスク 28 (出典) “Inverting Gradients - How easy is it

    to break privacy in federated learning?” https://arxiv.org/abs/2003.14053 勾配から訓練データ (画像) を 復元できる èプライバシー保護が必要 代表的な⽅法︓差分プライバシー
  21. Federated LearningにDifferential Privacyを適⽤ FLにDifferential Privacyを適⽤ • 更新情報を他⼈と⾒分けがつかない形に • モデルからの学習データの推定を困難に •

    有効な学習には膨⼤なクライアントが必要 解決する課題 • 厳密なプライバシーの保証と管理 Distributing Parameters + + + + + + + + + Differential Privacy + Differential Privacy ノイズ を加算することで 出⼒の差異を制限 (どんな⼊⼒でも出⼒がほぼ同じに⾒える) 多数の更新情報を集約すると ノイズ同⼠が打ち消し合う Update Global Parameters 29
  22. スタンプの⾃動推薦 (1/2) ※ユーザの⼊⼒した⽂字は、対応する意味的なラベルを特定するためだけに利⽤されます。 l 意味的なタグをもとに推薦 • Sticker suggestions based on

    semantic labels l ⼊⼒⽂字からインクリメンタルに推薦 • Incremental suggestions while text input, using pre-defined keywords associated with the each label 31
  23. スタンプの⾃動推薦 (2/2) ※ユーザの⼊⼒した⽂字は、対応する意味的なラベルを特定するためだけに利⽤されます。 l 意味的なタグをもとに推薦 • Sticker suggestions based on

    semantic labels l ⼊⼒⽂字からインクリメンタルに推薦 • Incremental suggestions while text input, using pre-defined keywords associated with the each label 32
  24. Federated Learningの適⽤ l スタンプの推薦処理を2段階に分け、特にプライバシーの観点で取り扱いに注意 が必要なデータを⽤いる処理に、Federated Learningを適⽤ (第1段階) 推薦候補の⽣成 (第2段階) 推薦候補の並べ替え

    スタンプの個数 1,000,000 à 100 100 学習データ スタンプの⼊⼿履歴データ (購⼊や無料ダウンロード等) トークルーム等での スタンプ閲覧・送信履歴のデータ 推論処理 サーバー クライアント端末 学習処理 サーバー 主にクライアント端末 Federated Learningを適⽤ 35
  25. Common Platform for FL Service specific システムアーキテクチャ l さらに、サーバー側とクライアント側で分離(4象限に分類) Common

    Platform for FL (Client-side) Service specific (Server-side) Common Platform for FL (Server-side) Service specific (Client-side) 38
  26. Platform (Client-side) 処理ステップ(3/3)︓学習 l ログ蓄積後のアイドル中に学習処理を実⾏して、学習結果を得る l 差分プライバシーのノイズを付与して、ユーザID等を削除してサーバに送信・集約 App.(Server-side) Platform (Server-side)

    App.(Client-side) Candidate Generation Prediction Request Local Evt. Dispatcher user input user Model Aggregation ML Model Repository ML Model (updated) Prediction Training log (local) ML Model Differential Privacy 41
  27. 差分プライバシーの現状と今後 【今後の⽅針】適切なプライバシーパラメータ ε の探索 【実現済み】差分プライバシーを適⽤した連合学習を実装 • Localの学習結果にガウシアンメカニズムを適⽤ (Local差分プライバシー) • ノイズ付与されたLocalの学習結果を収集・平均化

    (連合学習) • ユーザIDを削除してから学習結果をアップロード • 現状︓連合学習の実現可能性を評価するための弱い値を設定 • 今後︓学習精度とプライバシーを両⽴する適した値を探索・設定 42
  28. まとめ l 連合学習(Federated Learning, FL)の概要を説明 l 連合学習に差分プライバシー(Differential Privacy, DP) を適⽤した事例を紹介

    • DP+FLを実サービスに適⽤した国内初の事例 (発表者が知る限り) 実サービスで使われる技術を是⾮⼀緒に作りましょう︕ (共同研究・インターン等) 47