Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Privacy Techによる新しいデータ活用の形

Privacy Techによる新しいデータ活用の形

竹之内隆夫
LINE株式会社 Data Scienceセンター Machine Learning Solution室
Machine Learning Privacy & Trustチーム
シニアプライバシーエバンジェリスト/博士(工学)

※TECH PLAY Data Conference 2023での発表資料です
https://bd.techplay.jp/tp-conference2023/line

<発表概要>
個人に関するデータの利活用が進む中、プライバシーへの配慮は益々重要となってきています。本講演では、データ活用とプライバシー保護の両立のためのPrivacy Techの概要と、LINEにおける事例を紹介します。

LINE Developers

March 22, 2023
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 l 所属・⽒名 LINE株式会社 Machine Learning Privacy & Trust Team,

    Manager ⽵之内 隆夫 (たけのうち たかお) l 業務内容 • Privacy Techの事業開発・研究開発 l 経歴 • 前前職・前職も含めプライバシー系で10数年の経歴 • 技術だけでなく法制度や普及促進も • 例︓業界団体「秘密計算研究会」などの⽴ち上げ等 2
  2. Our Team’s Publications Title Conference / WS Authors Out-of-Distribution Detection

    with Reconstruction Error and Typicality- based Penalty WACV2023 Osada, Takahashi, Ahsan, Nishide Fair and Robust Metric for Evaluating Touch-based Continuous Mobile Device Authentication IUI2023 Kudo, Takahashi, Ushiyama, Yamana HDPView: Differentially Private Materialized View for Exploring High Dimensional Relational Data VLDB2022 Kato, Takahashi, Takagi, Cao, Liew, Yoshikawa Network Shuffling: Privacy Amplification via Random Walks SIGMOD2022 Liew, Takahashi, Takagi, Kato, Cao, Yoshikawa PEARL: Private Embeddings and Adversarial Reconstruction Learning ICLR2022 Liew, Takahashi, Ueno Homomorphic Encryption-Friendly Privacy-Preserving Partitioning Algorithm for Differential Privacy BigData2022 Ushiyama, Takahashi, Kudo, Yamana P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model ICDE2021 Takagi, Takahashi, Cao, Yoshikawa Construction of Differentially Private Summaries over Fully Homomorphic Encryption DEXA2021 Ushiyama, Takahashi, Kudo, Yamana Continuous and Gradual Style Changes of Graphic Designs with Generative Model IUI2021 Ueno, Sato Indirect Adversarial Attacks via Poisoning Neighbors for Graph Convolutional Networks BigData2019 Takahashi インターンの成果 トップカンファレンス 3
  3. はじめに l 背景 • データ利活⽤の進展に伴い、プライバシー保護も重要に • エンジニア視点だとプライバシーの概念や技術で何を守るのかも分かりにくい → 本発表︓エンジニア視点でプライバシーの概念と技術動向の理解を⽬指す l

    発表内容 • そもそもプライバシーとは︖ • Privacy Techとは︖なぜ必要︖ • Privacy Techの動向 • LINEのスタンプ推薦への適⽤事例 • 差分プライバシーと連合学習を適⽤した国内初の事例 (発表者が知る限り) 5
  4. ⽬次 l 1. PrivacyとPrivacy Tech l 2. Privacy Techのトレンド l

    3. 差分プライバシーと連合学習 • 3-1. 差分プライバシー • 3-2. 連合学習+差分プライバシー l 4. LINEの事例
  5. プライバシーとは(エンジニアの視点で) l プライバシーとは、時代・地域・⽂化等の社会的背景や個⼈の感覚で変化する複雑な概念 → 定義が不明確・変化するため、(ある程度は) 動向を追う必要がある(が⼤変) n 「⾃⼰情報コントロール権」が主流な中、別の考えも n プライバシー(の権利)の特徴

    (⼤御所の堀部政男先⽣の⽂献引⽤※1) 「プライバシーの権利」ないし「プライバシー権」の意味する ところは、歴史的に異なる ※1 出典・参考︓堀部政男, "プライバシーを守ったITサービスの提供技術︓1.プライバシー・個⼈情報保 護論議の世界的展開と⽇本", 情報処理,54(11),1106-1114 (2013-10-15) 出典︓⾼⽊浩光(語り⼿),⼩泉真由⼦(聞き⼿),宇壽⼭貴久⼦(撮影),"⾼⽊浩光さんに訊く、個 ⼈データ保護の真髄 ̶̶いま解き明かされる半世紀の経緯と混乱", 情報法制研究所, https://cafe.jilis.org/2022/03/18/160/ 7 • ひとりにしておかれる権利(right to be let alone) Samuel D. Warren and Louis D. Brandeis, “The Right to Privacy” (1890) • 私⽣活をみだりに公開されないという法的保障ないし権利 「宴のあと」 東京地裁 判例 (1960) • 個⼈,グループ⼜は組織が、⾃⼰に関する情報をいつ、どのように、 また、どの程度に他⼈に伝えるかを⾃ら決定できる権利 Alan F. Westin, “Privacy and Freedom”(『プライバシーと⾃由』) (1967) n プライバシー(の権利)の歴史的変化※1
  6. プライバシー原則のために技術(Privacy Tech)が必要 l ある程度国際的な合意が取られているプライバシーの原則に従うべき • 例︓OECDガイドライン※2、Privacy by Design※3等。各国法制度はEU GDPRを参考※1。 l

    「data minimization」原則を満たすためには、技術進展に伴い、新技術の継続的な適⽤が必要 GDPRのプライバシー原則※1 原則 概要 Lawfulness, fairness and transparency 合法、公正、透明性ある⽅法で処理すること Purpose limitation 特定された明⽰的で正当な⽬的で、収集・処理すること Data minimization ⽬的達成のために関連※4する必要最⼩限のデータ収集・処理であること Accuracy 正確なデータであること Storage limitation ⽬的達成後は削除すること Integrity and confidentiality データの完全性、機密性を保つこと(セキュリティ技術) Accountability 上記原則の遵守を説明・証明できること ※1 EUのプライバシ関係の規則であるGDPR(General Data Protection Regulation)は、⽇本・⽶国・アジア圏の法制度に強く影響しているため、 ここではGDPRのプライバシ原則(Privacy Principals)を抜粋。なお、原⽂ではminimisationであるが、本資料ではminimizationと表記している。 https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/principles/ 8 ※2 “Guidelines Governing the Protection of Privacy and Transborder Flows of Personal Data”, OECD, 1980年制定,2013年更新 ※3 "Privacy By Design", アン・カブキアン博⼠, https://www.soumu.go.jp/main_content/000196322.pdf ※4 OECDガイドラインの第2原則 “Personal data should be relevant to the purposes(略)”の意味
  7. BigTech企業の動向︓プライバシーは経営戦略 l ユーザのプライバシー意識の⾼まりにより、プライバシーを経営戦略に位置付け l ⽬的︓ユーザ・企業からのデータ収集増 (データはBigTech各社の競争優位性の源泉) l ⽬標︓法令遵守は当然。それ以上のブランド構築 l 活動︓先進的な技術導⼊と対外コミュニケーション

    (プライバシー技術は⾒え難いため) 技術 対外コミュニケーション Ø 先進的な技術開発と 事業への導⼊ Ø 従来技術の導⼊ Ø 最低限の情報開⽰ Ø 積極的なアピール Ø 法制度・仕様等の検討リード プライバシー保護のレベル ⾏っている活動内容の例 ブランド構築の レベル 法令遵守の レベル 出典: https://time.com/6071901/apple-iphone-privacy-wwdc-2021-vpn/ https://about.fb.com/news/2019/04/f8-2019-day-1/ BigTech企業の例 10
  8. ⽬次 l 1. PrivacyとPrivacy Tech l 2. Privacy Techのトレンド l

    3. 差分プライバシーと連合学習 • 3-1. 差分プライバシー • 3-2. 連合学習+差分プライバシー l 4. LINEの事例
  9. Privacy Techのトレンド l ①差分プライバシー(Differential Privacy)、②連合学習(Federated Learning)、 ③TEE/MPC(“秘密計算”) ※2がトレンドなPrivacy Techの例 市場動向︓the

    2022 Gartner Hype Cycle for Privacy カテゴリ 技術名 プライバシー保護の 「フレームワーク」 連合学習(Federated Learning) データ合成 PIR(Private Information Retrieval) プライバシー保護の 「技術」 (プライバシー保護 の実現のための Building Block) 差分プライバシー(Differential Privacy) MPC (Multi-Party Computation) / TEE (Trusted Execution Environment) k-Anonymization (K-匿名化) ゼロ知識証明 ※1 参考⽂献︓ ENISA(The European Union Agency for Cybersecurity ) Data Protection Engineering https://www.enisa.europa.eu/publications/data-protection-engineering ⽇本総研 プライバシー強化技術の概説と動向 https://www.jri.co.jp/page.jsp?id=101511 デロイトトーマツ, プライバシー強化技術の紹介動画「A day with PETs」, https://www2.deloitte.com/jp/ja/pages/deloitte-analytics/articles/a-day-with-pets.htm ※2 TEEはConfidential Computingとも呼ばれる。秘密計算は英語ではSecure Computationとも呼ばれ、⽇本では秘匿計算と呼ばれることもある。本資料では広くデータを秘匿したまま処理する技術という観点でMPCとTEEを同様な技術と捉えて記載。 主要なプライバシー技術の⼀覧※1 プライバシー保護の「フレームワーク」と「技術」で整理 特にBigTech企業等でも注⽬されている技術を発表者の観点で抽出 図出典: https://www.gartner.com/doc/reprints?id=1-2ARJT8DF&ct=220805 12 (TEE: Trusted Execution Environment, MPC: Multi-Party Computation)
  10. トレンドのPrivacy Techの概要 l トレンドの3つのPrivacy Techは、「収集」「処理」「提供」の各フェーズで データを保護 Server User Clients Other

    Companies Analyst Data Data Data 収集 提供 /利⽤ 処理 (1) Differential Privacy (2) Federated Learning (3) TEE/MPC ビッグデータに適したデータ保護 • 数学的保証のある“ぼかし” • データ︓⼤ à ぼかし︓⼩ • プライバシーの定量化 収集データの最⼩化 • クライアント端末で学習 • 更新情報だけを収集 誰も関与できない秘密計算 • データを秘匿したまま処理 技術名 技術概要 プライバシー保護の箇所 TEE : Trusted Execution Environment MPC : Multi-Party Computation 13 “ぼかす” “減らす” “隔離する”
  11. ① Differential Privacy(差分プライバシー) Differential Privacy(DP)とは • 「どれだけ他⼈と⾒分けがつかないか」を表現したプライバシー保護の尺度 解決する課題 • 従来の匿名化と異なり、いかなる知識と突合されても安全なプライバシー保護を提供

    実現⽅法 • データの集計の際に、適切なノイズ(乱数)を加算 (デメリット︓正確な値では無くなる) ノイズ 加算 14 集計結果 集計結果 集計結果 … … 処理結果を⽐較しても 「他⼈との⾒分けがつかない」 ⇨ プライバシー保護につながる 詳細は後半説明
  12. ② Federated Learning(連合学習) Federated Learning (FL) とは • クライアントで機械学習を実施して 更新情報だけをサーバーが収集

    (データはクライアントから出ない) 解決する課題 • クライアントでしか扱いを許容されない 機微データの活⽤を実現 • サーバーのデータ管理コストの削減 Non-participants of FL Local Update Info Local Update Info Distributing Parameters Update Global Parameters 15
  13. ③ TEE/MPC(“秘密計算”) TEE/MPC とは l データの「処理中」も暗号化できる暗号技術 (従来の暗号化は「通信中」と「保存中」のみ暗号化) • TEE: ハードウエアのチップを利⽤した⽅式

    (プログラムが不正改造されていないこと(真正性)の確認も可能) • MPC: ソフトウエア(暗号理論)を利⽤した⽅式 解決する課題 l 常にデータの暗号化を実現するため、管理者や不正者からの不正を防⽌ Server Analyst User Clients Other Companies Data Process Server Analyst User Clients Other Companies Data Process by TEE/MPC 常にデータを 暗号化可能 16 TEE : Trusted Execution Environment MPC : Multi-Party Computation 従来の暗号技術を使ったシステム TEEやMPCを適⽤したシステム 処理中の 漏洩リスク
  14. トレンドPrivacy TechにおけるBigTech企業の動向 l 各社PrivacyTechの事業導⼊※2を進めており、特にGoogleとAppleが⾼いプレゼンス • 各社とも研究論⽂の発表にも積極的 → 技術の妥当性検証・透明性のために必要な活動 l LINEはDP(Differential

    Privacy)とFL (Federated Learning)の導⼊事例や世界最先端な研究成果あり) Privacyの 「フレームワーク」 Privacyの 「技術」 Google Apple Meta (Facebook) Amazon Microsoft その他 Stats Gathering (データ収集) DP 導⼊済 (Chrome等) 導⼊済 (QuickType等) 研究開発 (OSS開発) 導⼊済※1 (Alexa) 導⼊済 (telemetry) Data Publishing (データ提供) DP 導⼊済 (⼈流レポート) 導⼊済 (App Store Bench) 導⼊済 (Data for Good) NTT Docomo、 Uberが導⼊済 Federated Learning - 導⼊済 (Gboard) 研究開発 導⼊済※1 (Alexa) 研究開発 (OSS開発) DP 導⼊済 (Gboard) 研究開発 導⼊済※1 (Alexa) MPC 研究開発 DP + TEE/MPC 研究開発 Data Clean Room DP 研究開発 (OSS開発) Uber, LinkedIn MPC/TEE 研究開発 (OSS開発) DACが 実証実験 Cloud適⽤、ライブラ リ開発 TEE 研究開発 (OSS開発) (類似技術: iPhoneの Enclave) 研究開発 (OSS開発) 導⼊済 (AWS) 導⼊済 (Azure) Alibaba Baiduが導⼊済 MPC 研究開発 (OSS開発) 導⼊検討後 延期 研究開発 (HPでアピール) 研究開発 (OSS開発) ブロックチェーンの 鍵管理 MPC PayPal,Coinbase が導⼊済 Crowd型の広告配信 - 研究開発 ※1 Amazonは明確に導⼊していると⾔い切っていないが研究開発のBlogから⾒て導⼊済みの可能性が⾼いと判断 ※2 各社が公開している情報から発表者の判断で「研究開発」「導⼊済」を判断 17
  15. ⽬次 l 1. PrivacyとPrivacy Tech l 2. Privacy Techのトレンド l

    3. 差分プライバシーと連合学習 • 3-1. 差分プライバシー • 3-2. 連合学習+差分プライバシー l 4. LINEの事例
  16. Differential Privacy(差分プライバシー)とは︖ Sensitive Data 𝑫 Noisy Output 区別困難 ≃ 𝝐

    で表される程度に 𝑫′︓neighbor of 𝑫 プライバシー保護された 統計値を提供 20 • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • (ノイズの加算により)いかなる知識との突合にも頑健なプライバシーを提供 ノイズ 付加 ノイズ 付加 適切なノイズ設計が必要
  17. Differential Privacyと匿名化との対⽐ 21 匿名化 (k-匿名化[2]等) Differential Privacy プライバシーパラメータ の決定⽅法 根拠なし

    統計的根拠から決定 プライバシー消費の管理 不可 可能 外部知識との突合 匿名化が破綻 頑健 (破綻しない) 複数回のリリース 匿名化が破綻 プライバシー消費を積算 [2] L. Sweeney. k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557–570, 2002. GAFAMやトップ⼤学を中⼼に 研究開発が⾮常に活発
  18. Differential Privacyの2種類のモデル ノイズ 付加 ノイズ 付加 ノイズ 付加 サーバ サーバ

    ノイズ 付加 Central Differential Privacy(CDP) Local Differential Privacy(LDP) サーバーから第三者への統計値の提供時 (サーバー側でノイズ付加) クライアントからサーバーへのデータの収集時 (クライアント側でノイズ付加) 22 本⽇の対象はこちら
  19. Local Differential Privacy(LDP)※1 23 メカニズム ℳ: 𝒳 → 𝒮 が

    (𝝐, 𝜹)-ローカル差分プライバシー を満たすとは 任意の⼊⼒の組 𝑥, 𝑥! ∈ 𝒳 および 任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである Pr ℳ 𝑥 ∈ 𝑆 ≤ 𝑒!⋅ Pr ℳ 𝑥" ∈ 𝑆 + 𝛿 ℳ ℳ ℳ ※1 J. C. Duchi, M. I. Jordan, and M. J. Wainwright. Local privacy and statistical minimax rates. FOCS2013 クライアントは ⼀塊のデータ𝑥 をℳに⼊⼒ Server 𝒳 ∈ { } ひとりひとりが 何を送ってきたか 区別が難しい
  20. ⽬次 l 1. PrivacyとPrivacy Tech l 2. Privacy Techのトレンド l

    3. 差分プライバシーと連合学習 • 3-1. 差分プライバシー • 3-2. 連合学習+差分プライバシー l 4. LINEの事例
  21. 【再掲】Federated Learning(連合学習) Federated Learning (FL) とは • クライアントで機械学習を実施して 更新情報だけをサーバーが収集 (データはクライアントから出ない)

    解決する課題 • クライアントでしか扱いを許容されない 機微データの活⽤を実現 残存するプライバシーリスク • 更新情報やモデルからのデータ復元 Non-participants of FL Local Update Info Local Update Info Distributing Parameters Update Global Parameters 25
  22. Federated Learningにおけるプライバシーリスク 26 (出典) “Inverting Gradients - How easy is

    it to break privacy in federated learning?” https://arxiv.org/abs/2003.14053 学習モデルの更新情報(勾配)から 訓練データ (画像) を復元できる èプライバシー保護が必要
  23. Federated LearningにDifferential Privacyを適⽤ FLにDifferential Privacyを適⽤ • 更新情報を他⼈と⾒分けがつかない形に • モデルからの訓練データの推定を困難に •

    有効な学習には膨⼤なクライアントが必要 解決する課題 • 厳密なプライバシーの保証と管理 Distributing Parameters + + + + + + + + + Differential Privacy + Differential Privacy ノイズ を加算することで 出⼒の差異を制限 (どんな⼊⼒でも出⼒がほぼ同じに⾒える) 多数の更新情報を集約すると ノイズ同⼠が打ち消し合う Update Global Parameters 27
  24. 参考︓MPCやTEEを⽤いた強化 Shuffle model with MPC or TEE l クライアントが送るデータをシャッフルすることでプライバシー保護を強化 l

    シャッフル処理は、ある程度の信頼が必要であり、MPCやTEEが有効な⼿段の⼀つ クライアントからのレポートをシャッフルし, サーバに対し送信元をわからなくする + Differential Privacy + + + + + Shuffler with TEE or MPC Swap / Remove Identifiers Anonymized Shuffler should be a “trusted” entity. 𝜖! -LDP at client 𝜖-CDP + + + + 28
  25. ⽬次 l 1. PrivacyとPrivacy Tech l 2. Privacy Techのトレンド l

    3. 差分プライバシーと連合学習 • 3-1. 差分プライバシー • 3-2. 連合学習+差分プライバシー l 4. LINEの事例(スタンプ推薦への連合学習+差分プライバシーの適⽤)
  26. スタンプの⾃動推薦 (1/2) ※ユーザの⼊⼒した⽂字は、対応する意味的なラベルを特定するためだけに利⽤されます。 l 意味的なタグをもとに推薦 • Sticker suggestions based on

    semantic labels l ⼊⼒⽂字からインクリメンタルに推薦 • Incremental suggestions while text input, using pre-defined keywords associated with the each label 31
  27. スタンプの⾃動推薦 (2/2) ※ユーザの⼊⼒した⽂字は、対応する意味的なラベルを特定するためだけに利⽤されます。 l 意味的なタグをもとに推薦 • Sticker suggestions based on

    semantic labels l ⼊⼒⽂字からインクリメンタルに推薦 • Incremental suggestions while text input, using pre-defined keywords associated with the each label 32
  28. Federated Learning(FL)とDifferential Privacy(DP)の適⽤ l スタンプの推薦処理を2段階に分け、特にプライバシーの観点で取り扱いに注意 が必要なデータを⽤いる処理に、FL+DPを適⽤ (第1段階) 推薦候補の⽣成 (第2段階) 推薦候補の並べ替え

    スタンプの個数 1,000,000 à 100 100 学習データ スタンプの⼊⼿履歴データ (購⼊や無料ダウンロード等) トークルーム等での スタンプ閲覧・送信履歴のデータ 推論処理 サーバー クライアント端末 学習処理 サーバー 主にクライアント端末 FL+DPを適⽤ 35
  29. 処理の概要 サーバー A.推薦処理 B.学習処理 ユーザー端末 学習モデル の更新 (連合学習) 嗜好情報 スタンプ候補

    グローバル モデル ノイズ付きの 学習モデルの 更新情報 スタンプ 候補の ソート スタンプ 閲覧・送信 履歴のデータ 学習モデルの 更新 (連合学習) 学習モデル の更新情報 ノイズ付加 (差分 プライバシー) ノイズ付きの 学習モデルの 更新情報 嗜好情報 スタンプ候補 ローカル モデル 凡例 ︓機能 ︓データ 推薦⽤の データ⽣成 他の ユーザー 端末 他の ユーザー 端末 ⽂字を⼊⼒ 推薦 スタンプを 閲覧・送信 スタンプの ⼊⼿履歴 データ
  30. 差分プライバシーの現状と今後 【今後の⽅針】適切なプライバシーパラメータ ε の探索 【実現済み】差分プライバシーを適⽤した連合学習を実装 • Localの学習結果にガウシアンメカニズムを適⽤ (Local差分プライバシー) • ノイズ付与されたLocalの学習結果を収集・平均化

    (連合学習) • ユーザIDを削除してから学習結果をアップロード • 現状︓連合学習の実現可能性を評価するための弱い値を設定 • 今後︓学習精度とプライバシーを両⽴する適した値を探索・設定 37
  31. まとめ l Privacy Techの概要やトレンドを説明 l 特に連合学習(Federated Learning)と差分プライバシー(Differential Privacy) の詳細を説明 l

    LINEの連合学習と差分プライバシーの適⽤事例を紹介 • 国内初の事例 (発表者が知る限り) 41