Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Elix, CBI2024, ランチョンセミナー, 創薬における連合学習の応用

Avatar for Elix Elix
October 29, 2024

Elix, CBI2024, ランチョンセミナー, 創薬における連合学習の応用

Avatar for Elix

Elix

October 29, 2024
Tweet

More Decks by Elix

Other Decks in Technology

Transcript

  1. Copyright © Elix, Inc. All rights reserved. 創薬における連合学習の応用 2024/10/29 @

    CBI 2024 ランチョンセミナー 株式会社Elix アプリケーションサイエンティスト 井上 貴央
  2. Copyright © Elix, Inc. All rights reserved. • 性能の良い予測モデルを構築するには、サンプル数が多いのが望ましい ◦

    とくに、深層学習モデルでは、古典的モデルと比べて多数のサンプルが必要になる場合も多い ➔ 利用できるラベル付きの化合物データが少なく、所持する化合物種に偏りがある場合がある • 大規模な化合物データを集めるため、企業間で連携してデータを集める? ➔ セキュリティなどの関係から、 (たとえ暗号化されていたとしても) 蓄積した化合物データそのものを 社外に出すのは難しい 化合物データに関連する課題 2
  3. Copyright © Elix, Inc. All rights reserved. • 連合学習: データセットを一箇所に集めずに、

    (深層学習) モデルの訓練を行う手法 ◦ サーバと複数のクライアントがモデルパラメータを やり取りしながら訓練 ▪ サーバは、共有するモデルのパラメータを管理 ▪ 各クライアントは、手持ちのデータセットで 訓練 (公開の必要なし) ◦ モデルの種類・ハイパーパラメータなどについては あらかじめ合意をとっておく ➔ データセット自体を外部と共有することなく 多数のサンプルで訓練したことになる 連合学習 3 [1] M. Oldenhof, et al. Proc. AAAI Conf. Artif. Intell. Vol. 37. No. 13. 2023. 図は論文[1]より引用
  4. Copyright © Elix, Inc. All rights reserved. • モデルの訓練では、予測のずれ具合を評価する損失関数 𝐿

    𝑾 を最小化する モデルパラメータを求める ◦ 回帰: 平均2乗誤差など、分類: クロスエントロピー誤差など • 深層学習モデルの訓練では、ふつう、損失関数を最小化するパラメータ 𝑾∗ が解析的に求まらない (𝑾∗ = ⋯ の形で書き表せない) ➔ 勾配降下法などの、反復による数値解法を利用する • 勾配降下法: 𝑾 𝑡+1 = 𝑾 𝑡 − 𝜂𝐿′ 𝑾 𝑡 (𝜂 > 0: 学習率) ◦ 現在のパラメータ 𝑾 𝑡 における、最適化したい関数 𝐿 の勾配 𝐿′ の情報 を用いてパラメータを更新 ➔ モデルの訓練には、モデルパラメータの情報があれば十分 モデルパラメータの最適化 4
  5. Copyright © Elix, Inc. All rights reserved. 1. サーバで管理しているモデル (グローバルモデル)

    の 更新に参加するクライアントを選択 2. 各クライアントに、現在のグローバルモデルパラメータ を送信 3. 配布されたモデルパラメータを利用して、クライアント ごとにモデルを訓練 4. 各クライアントのパラメータ更新量をサーバに送信 5. 各クライアントから送られてきた更新量の情報を サーバで集約し、グローバルモデルを更新 6. 1〜5で1ラウンドとし、複数ラウンド分繰り返す 連合学習の流れ 5 [1] M. Oldenhof, et al. Proc. AAAI Conf. Artif. Intell. Vol. 37. No. 13. 2023. 図は論文[1]より引用
  6. Copyright © Elix, Inc. All rights reserved. • 集約の方法は様々 ◦

    FedAvg: モデルパラメータの更新量の重み付き平均を、 グローバルモデルの更新量とする ▪ 重みの付け方も様々 ⁃ ex.) 所有するサンプル数の割合 ▪ 各クライアントでの訓練結果は、当該クライアントのデータに 過剰適合する可能性がある ◦ FedProx: 各クライアントのモデルパラメータ更新で、 グローバルモデルのパラメータからズレすぎないよう制約をかける グローバルモデルの更新 6 図は 米谷 竜, 連合学習入門 より引用
  7. Copyright © Elix, Inc. All rights reserved. • モデルの性能を保持したまま、クライアント–サーバ間の通信時間を短縮する ◦

    とくに、モデルが大規模で通信時間が律速になる場合には有効 ◦ 各クライアントからパラメータの更新量を送る際、更新量の情報を圧縮 ▪ ex.) ランダムマスク, パラメータ行列の低ランク近似, etc. • 通信の暗号化によるデータプライバシーの改善 ◦ 推論攻撃: 学習済みモデルから、典型的な訓練データを推測・生成したり、あるサンプルが 訓練データセットに含まれているかどうかを推測したりする攻撃 ➔ データの中身が推測できないように、共有するパラメータの具体的な値を隠蔽 ◦ Masking with one-time pads[1]: 更新量の和の情報だけをうまく伝える集約方法 ◦ パラメータの更新量に適当なノイズを足しておく (差分プライバシー) ▪ kMoLでは差分プライバシーが利用されている その他の話題 7 [1] K. Bonawitz, et al. Proc. ACM Conf. Comput. Commun. Secur. 2017.
  8. Copyright © Elix, Inc. All rights reserved. • 製薬企業・スタートアップを含む10の団体がデータを出し合って、連合学習でグローバルモデルを訓練 ◦

    約26億件のデータ点で訓練 (化合物数: 約2100万件, アッセイ数: 約4万件) ▪ 現在もデータが取得されているアッセイデータ (Alive) と、データ取得が完了したアッセイデータ (Historical) に分類されている ▪ アッセイごとに、Panel (オフターゲット効果を確認), ADME, Others (オンターゲット効果を確認) に分類されている ◦ 各クライアントは、データの前処理マニュアルに従ってツール (MELLODDY-TUNER) を用いて前処理 ▪ 訓練に利用するデータセットへの制約、特徴ベクトルの作成方法などの統一 • クライアントごとに、予測タスクが異なっている MELLODDY[1, 2] 8 [1] W. Heyndrickx, et al. J. Chem. Inform. Model. 64(7), 2331–2344, 2024. [2] M. Oldenhof, et al. Proc. AAAI Conf. Artif. Intell. Vol. 37. No. 13. 2023.
  9. Copyright © Elix, Inc. All rights reserved. • ベースとするモデル: SparseChem[3]

    ◦ ECFPフィンガープリントを入力とする全結合型ニューラル ネットワーク ◦ 入力層付近のネットワークは共通 ◦ タスクに応じて、出力層付近のネットワークのみを変更 ▪ (2値) 分類・回帰に応じて4パターンのネットワーク構造 ⁃ 補助タスク (HTS, 画像データからのターゲット予測結果 を予測するタスク) を利用するモデルも用意 • 集約方法: Masking with one-time pads[4] ◦ ネットワークの共通部分のパラメータのみを連合学習で訓練 利用されているモデル・訓練方法 9 図は論文[1]より引用 図は論文[2]より引用 [1] W. Heyndrickx, et al. J. Chem. Inform. Model. 64(7), 2331–2344, 2024. [2] M. Oldenhof, et al. Proc. AAAI Conf. Artif. Intell. Vol. 37. No. 13. 2023. [3] A. Arany, et al. arXiv preprint. arXiv:2203.04676, 2022. [4] K. Bonawitz, et al. Proc. ACM Conf. Comput. Commun. Secur. 2017.
  10. Copyright © Elix, Inc. All rights reserved. • ベースライン (連合学習をしない場合)

    からの、評価指標の相対 改善率 (連合学習によってどの程度の性能改善を達成できたか) で評価 ◦ metric perfect : 評価指標の最大値 ◦ metric MoI / metric baseline : 連合学習モデル/ベースラインモデルの評価指標 • 回帰: 𝑅2, 2値分類: AUC–PR, AD: Conformal Efficiency (CE)[2] ◦ AUC–PR: Precision–Recall曲線の下部面積 (最大値: 1) ◦ CE: 単一のクラスに分類されると予測されたサンプルの割合 (最大値: 1) ▪ 両方のクラスに分類したり、どちらにも分類しなかったりすることが できる仕組み (コンフォーマル予測) を利用している • RIPtoPの中央値は多くの場合に正の値をとる ➔ 連合学習で予測性能が改善 モデルの性能評価 10 図は論文[1]より引用 [1] W. Heyndrickx, et al. J. Chem. Inform. Model. 64(7), 2331–2344, 2024. [2] W. Heyndrickx, et al. Artif. Intell. Life Sci. 3, 100070, 2023.
  11. Copyright © Elix, Inc. All rights reserved. • 所持サンプル数による性能改善 ◦

    所持サンプル数によらず、性能改善がみられる • 補助タスクの効果 ◦ 多くの場合、連合学習 + 補助タスクで性能が改善 ◦ ADにはほぼ影響なし • アッセイデータの種類 ◦ ADME, Panelのアッセイデータが、Otherのアッセイデータ よりも性能改善が大きい ➔ 他社のタスクとの関連度が高く、同一の化合物が含まれている ことに起因すると考えられる モデルの性能評価 11 図は論文[1]より引用 [1] W. Heyndrickx, et al. J. Chem. Inform. Model. 64(7), 2331–2344, 2024.
  12. Copyright © Elix, Inc. All rights reserved. • 連合学習: データセットを一箇所に集めずに、(深層学習)

    モデルの訓練を行う手法 ◦ サーバと各クライアントが、モデルパラメータをやり取りしながら訓練 ◦ サーバは、各クライアントでの訓練結果を集約して、グローバルモデルのパラメータを更新 • MELLODDY: 製薬企業・スタートアップを含む10の団体がデータを出し合って、連合学習で グローバルモデルを訓練 ◦ 連合学習により予測性能が改善 ▪ 補助タスクは予測性能の改善に寄与するが、ADの改善は他クライアントのデータに依るもの ▪ ADME・オフターゲット効果の予測のように、他のクライアントもデータを所持しているような タスクでの連合学習の効果が高い まとめ 12
  13. Copyright © Elix, Inc. All rights reserved. • 米谷 竜,

    連合学習入門 https://www.omron.com/jp/ja/technology/omrontechnics/2021/OMT_Vol53_No2_006JP.pdf • 鹿島 久嗣, 連合学習 (Federated Learning) https://hkashima.github.io/introductionFederatedLearning.pdf • 清藤 武暢, プライバシー保護技術としての連合学習の仕組みと最新動向 https://www.jstage.jst.go.jp/article/essfr/16/3/16_196/_article/-char/ja 参考文献 14