Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

創薬における機械学習技術について

Hiroshi Kajino
November 04, 2024

 創薬における機械学習技術について

創薬と機械学習の接点について,機械学習側から見た視点を提供します.

Hiroshi Kajino

November 04, 2024
Tweet

More Decks by Hiroshi Kajino

Other Decks in Science

Transcript

  1. 自己紹介 2 梶野 洸(かじの ひろし) • 2016/3: 東大情報理工 数理情報 博士課程修了

    機械学習,プライバシ保護,クラウドソーシング • 2016/4-2024/2: IBM Research – Tokyo 機械学習の研究+お客様プロジェクト支援 • 2024/2-: 個人事業主 機械学習の研究+お客様プロジェクト主導・支援・すべて Axcelead社でのAI創薬立ち上げ 研究の興味: 役に立ちそうで立たなくてでもちょっと役に立つ機械学習 例)分子構造の最適化,Spiking neural networks
  2. 本日の内容 4 1. 創薬の基本的な流れ 2. In silico 創薬の概要 特に computer-aided

    drug design 3. 創薬応用に関連した機械学習手法 4. AI創薬の課題と今後の方向性
  3. 医薬品=生体内因子の制御を通じて病態を改善する化合物 5 例: 血中コレステロール値を下げたい • 動機: 血管周りの病気の危険因子 • 医薬品: メバロチン

    • 作用機序: HMG-CoA recutaseの阻害 • 体内でコレステロールを作る 経路の1つがメバロン酸経路 • その経路を邪魔すれば 血中コレステロールが減りそう • メバロチンは途中の反応の 触媒となる酵素の働きを阻害する HMG-CoA Mevalonic acid コレステロール ・・・ HMG-CoA recutase 触媒となる酵素
  4. 薬を創るために必要なこと 6 1. 標的を決める • 標的とするタンパク質, 核酸, etc. • どの働きを阻害/作動するか

    2. 標的を制御する化合物を見つける • モダリティ(制御に用いるもの) • 低分子 • ペプチド • 抗体 • 核酸 etc. • 少量でも活性を示すものが望ましい (≒薬効 > 毒性となるもの) 3. 薬として満たすべき性質を確保する • 薬物動態(ADME) • 吸収 (absorption) • 分布 (distribution) • 代謝 (metabolism) • 排泄 (excretion) • 毒性 (toxicology) 小腸で吸収 肝臓で代謝 血液にのって 全身に分布 腎臓から排泄
  5. 創薬の標準的な手続き 7 ヒット化合物の探索 • ヒット化合物 • 標的に対して 活性を示す • 選択性あり

    • 手段 High-throughput screening (HTS)など • 入力: 105~106個の 化合物 • 出力: 100~102個の ヒット リード化合物の 探索・最適化 • リード化合物 • 高い薬理活性 • 許容できる ADMET • 知財 • 手段 創薬化学者が 構造活性相関を 見ながら化合物を 最適化する 非臨床試験 • 細胞/動物で 薬効や毒性の 試験をする • 生体内での 薬の動きを 調べる • ガイドライン に従った プロトコルの 試験が必要 臨床試験 ヒトでの有効性や 安全性を検証する 1. 薬の安全性や 適切な投与量を 調べる 2. 安全性と有効性 を調べる 3. 標準治療と 比較して 有効性を確認 承認 発売 + 市販後も 調査 4年前後+α 1-2年 7年前後
  6. Computer-aided drug design (CADD)は,計算機を用いて 薬剤候補を設計する手法である 11 リガンドベース設計 Ligand-based drug design

    (LBDD) 既知の活性をもつ化合物を用いる手法群 • 必要な情報: • 化合物𝑛, 活性値𝑛 𝑛=1 𝑁 • or 活性のある化合物の集合 • 代表的な手法: • 類似度検索 • Quantitative structure-activity relationship (QSAR) 構造ベース設計 Structure-based drug design (SBDD) 標的タンパク質の立体構造情報を 用いる手法群 • 必要な情報: • 標的タンパク質の立体構造 • 結合サイトの情報 (相互作用に関与する残基など) • 代表的な手法: • ドッキング • 分子動力学法
  7. 活性のある化合物と類似した化合物は活性があると期待できる 12 類似化合物検索 • 入力: • 活性のある化合物 ℛ = 𝑚𝑛

    (𝑟) ∈ ℳ 𝑛=1 𝑁 • 化合物ライブラリ ℒ = 𝑚𝑘 (𝑙) ∈ ℳ 𝑘=1 𝐾 • 類似度 sim: ℳ × ℳ → ℝ • 閾値 𝜏 ∈ ℝ • 出力 𝑚 ∈ ℒ ∃𝑚 𝑟 ∈ ℛ s. t. sim 𝑚, 𝑚 𝑟 ≥ 𝜏} • 気持ち: 活性のある化合物に似た化合物は 活性がありそう 類似度の定義 化合物の表現方法によって様々な 類似度の定義が存在する • グラフ表現 • 立体構造表現 ライブラリの濃縮をしたい 分子全体の 集合
  8. グラフ表現の類似度は,部分構造の有無を元に定義できる 13 Morgan フィンガープリント 部分構造の有無を0/1ベクトルで表現 谷本類似度 0/1ベクトル同士の類似度計算に使用 𝑠 𝒗1 ,

    𝒗2 = 𝒗1 ⋅ 𝒗2 𝒗1 ⋅ 𝟏 + 𝒗2 ⋅ 𝟏 − 𝒗1 ⋅ 𝒗2 ∈ [0,1] Figure cited from Rogers, David, and Mathew Hahn. "Extended-connectivity fingerprints." Journal of chemical information and modeling 50.5 (2010): 742-754. 0 1 1 0 0 1 0 0 0 ・・・ 𝒗 = ∈ 0,1 2048 化合物1と2で共通する 部分構造の数 化合物1と2に出現する 部分構造の総数
  9. 立体構造の類似度は,共通部分の体積を用いて定義できる 14 原子のガウシアン表現 • 各原子𝑖の中心座標を𝑹𝑖 ∈ ℝ3とする • 各原子𝑖を以下のガウシアンで表現 𝜌𝑖

    𝒓 = 𝑝𝑖 exp − 𝒓 − 𝑹𝑖 2 𝜎𝑖 2 ただし𝑝𝑖 は∫ 𝜌𝑖 𝒓 d𝒓 = 4𝜋 3 𝜎𝑖 2となる ように設定 分子のガウシアン表現 (≒ソフト球表現) 𝜌 𝒓 = ෍ 𝑖 𝜌𝑖 (𝒓) − ෍ 𝑖<𝑗 𝜌𝑖 𝒓 𝜌𝑗 𝒓 + ෍ 𝑖<𝑗<𝑘 𝜌𝑖 𝒓 𝜌𝑗 𝒓 𝜌𝑘 𝒓 − ⋯ • 分子のソフトな体積は解析的に計算可能 𝑉 = ∫ 𝜌 𝒓 d𝒓 Grant, J. Andrew, and B. T. Pickup. "A Gaussian description of molecular shape." The Journal of Physical Chemistry 99.11 (1995): 3503-3510. Grant, J. Andrew, Maria A. Gallardo, and Barry T. Pickup. "A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape." Journal of computational chemistry 17.14 (1996): 1653-1666. ガウシアンになる
  10. 立体構造の類似度は,共通部分の体積を用いて定義できる 15 2つの分子A,Bの共通部分の体積 (アラインメント済みの場合) 𝑉𝐴,𝐵 = ∫ 𝜌𝐴 𝒓 𝜌𝐵

    𝒓 d𝒓 2つの分子A,Bの共通部分を求める問題 (未アラインメントの場合) max 𝑔∈SE(3) ∫ (𝑔 ∘ 𝜌𝐴 ) 𝒓 𝜌𝐵 𝒓 d𝒓 立体構造に対する谷本類似度 sim 𝑚𝐴 , 𝑚𝐵 = 𝑉𝐴,𝐵 𝑉𝐴 + 𝑉𝐵 − 𝑉𝐴,𝐵 • ソフトな体積を用いると 3次元形状の類似度を測れる • 特定の機能 (pharmacophore)を 持った原子のみに注目した体積を 用いると,より機能に注目した 類似度を測れる 回転・並進して分子AとBが 最も重なりあうようにする 解析的に計算可能 &座標に関する勾配も計算可能
  11. QSARは化合物の構造と活性との相関を推定する. 適用範囲も推定することが多い. 16 定量的構造活性相関 (QSAR) • 用途: • ヴァーチャルスクリーニング •

    リード最適化での構造変換の指針 • 入力: 化合物と標的への活性値の対 𝑚𝑛 , 𝑦𝑛 ∈ ℳ × 𝒴 𝑛=1 𝑁 • 出力: 活性予測モデル 𝑓: ℳ → 𝒴 適用範囲 入力空間の中で予測が信頼できる範囲を 規定する • 手法例: 訓練データから適当に定める Hansch, Corwin, and Toshio Fujita. "p-σ-π Analysis. A Method for the Correlation of Biological Activity and Chemical Structure." Journal of the American Chemical Society 86.8 (1964): 1616-1626. Gadaleta, Domenico, et al. "Applicability domain for QSAR models: where theory meets reality." International journal of quantitative structure-property relationships (IJQSPR) 1.1 (2016): 45-63. 1点1点が 訓練事例 化合物空間
  12. QSARは化合物の構造と活性との相関を推定する. 適用範囲も推定することが多い. 17 定量的構造活性相関 (QSAR) • 用途: • ヴァーチャルスクリーニング •

    リード最適化での構造変換の指針 • 入力: 化合物と標的への活性値の対 𝑚𝑛 , 𝑦𝑛 ∈ ℳ × 𝒴 𝑛=1 𝑁 • 出力: 活性予測モデル 𝑓: ℳ → 𝒴 適用範囲 入力空間の中で予測が信頼できる範囲を 規定する • 手法例: 訓練データから適当に定める Hansch, Corwin, and Toshio Fujita. "p-σ-π Analysis. A Method for the Correlation of Biological Activity and Chemical Structure." Journal of the American Chemical Society 86.8 (1964): 1616-1626. Gadaleta, Domenico, et al. "Applicability domain for QSAR models: where theory meets reality." International journal of quantitative structure-property relationships (IJQSPR) 1.1 (2016): 45-63. 軸ごとに 最大値・最小値 を求める
  13. QSARは化合物の構造と活性との相関を推定する. 適用範囲も推定することが多い. 18 定量的構造活性相関 (QSAR) • 用途: • ヴァーチャルスクリーニング •

    リード最適化での構造変換の指針 • 入力: 化合物と標的への活性値の対 𝑚𝑛 , 𝑦𝑛 ∈ ℳ × 𝒴 𝑛=1 𝑁 • 出力: 活性予測モデル 𝑓: ℳ → 𝒴 適用範囲 入力空間の中で予測が信頼できる範囲を 規定する • 手法例: 訓練データから適当に定める Hansch, Corwin, and Toshio Fujita. "p-σ-π Analysis. A Method for the Correlation of Biological Activity and Chemical Structure." Journal of the American Chemical Society 86.8 (1964): 1616-1626. Gadaleta, Domenico, et al. "Applicability domain for QSAR models: where theory meets reality." International journal of quantitative structure-property relationships (IJQSPR) 1.1 (2016): 45-63. PCAしつつ軸ごとに 最大値・最小値を 求める
  14. QSARは化合物の構造と活性との相関を推定する. 適用範囲も推定することが多い. 19 定量的構造活性相関 (QSAR) • 用途: • ヴァーチャルスクリーニング •

    リード最適化での構造変換の指針 • 入力: 化合物と標的への活性値の対 𝑚𝑛 , 𝑦𝑛 ∈ ℳ × 𝒴 𝑛=1 𝑁 • 出力: 活性予測モデル 𝑓: ℳ → 𝒴 適用範囲 入力空間の中で予測が信頼できる範囲を 規定する • 手法例: 訓練データから適当に定める Hansch, Corwin, and Toshio Fujita. "p-σ-π Analysis. A Method for the Correlation of Biological Activity and Chemical Structure." Journal of the American Chemical Society 86.8 (1964): 1616-1626. Gadaleta, Domenico, et al. "Applicability domain for QSAR models: where theory meets reality." International journal of quantitative structure-property relationships (IJQSPR) 1.1 (2016): 45-63. 類似している 訓練事例の有無で 決める
  15. QSARモデルの適切な性能評価は難しい 20 事例1: ヴァーチャルスクリーニング • 目的: 活性をもつ未知の骨格を探索 • ランダム分割による評価は楽観的すぎる 訓練分割とテスト分割に同じ骨格が入る

    • 骨格に応じた分割やクラスタリングに 基づく分割が望ましい 事例2: リード最適化 • 目的: 有望な骨格の局所最適化 • Time-split: 試験日時をもとに分割 骨格ごとに評価したりもする 骨格B 骨格A 骨格C リード最適化で 探索したい範囲 骨格D VSで探索したい 範囲 Sheridan, Robert P. "Time-split cross-validation as a method for estimating the goodness of prospective prediction." Journal of chemical information and modeling 53.4 (2013): 783-790.
  16. ドッキングシミュレーションは,薬剤候補化合物と 標的タンパク質の複合体の立体構造を予測する 21 ドッキングアルゴリズム • 入力: • 標的タンパク質の立体構造 • 結合サイトの場所

    • リガンドの立体構造 • 出力: • 標的タンパク質とリガンドの複合体 • 結合親和性 注)様々な事情により,正確な出力が 求まるとは限らない 共結晶構造: Nagar, Bhushan, et al. "Crystal structures of the kinase domain of c-Abl in complex with the small molecule inhibitors PD173955 and imatinib (STI-571)." Cancer research 62.15 (2002): 4236-4243. ドッキング: Forli, Stefano, et al. "Computational protein–ligand docking and virtual drug screening with the AutoDock suite." Nature protocols11.5 (2016): 905-919. リガンド 標的タンパク質
  17. リガンドの立体配座の表現,立体配座を評価するスコア関数と それを最適化するアルゴリズムが構成要素である 22 立体配座の表現例 • リガンドの中心位置(自由度3) • リガンドの方向(自由度3) • 回転可能な結合の回転(自由度K)

    スコア関数 • 力場に基づいたスコア関数 vdW/静電相互作用など • 経験的スコア関数 • 適当なポテンシャル関数の線形和 • 重みはデータから推定 最適化アルゴリズム • MCMC • 勾配法 • 遺伝的アルゴリズム See. for example. Trott, Oleg, and Arthur J. Olson. "AutoDock Vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading." Journal of computational chemistry 31.2 (2010): 455-461.
  18. In silico創薬は様々な計算機科学の技法を用いて創薬を支援する 23 ヒット化合物の探索 • 目的: 標的に対する活性をもつ&選択性の 高い化合物を探す • 現場での実施例:

    O(105)の化合物を HTSにかけて O(102)くらいの化合物に絞る • 支援例:ヴァーチャルスクリーニング • ドッキング • QSAR リード最適化 • 目的: • より活性を高める • ADMETプロファイルを改善する • 既存の特許を回避する • 現場での実施例: • 周辺化合物を網羅的に合成・試験 • 構造活性相関を見ながら展開 • 支援例: • QSARによる定量的な指針を与える • 分子構造の最適化
  19. CADDの応用例として,スクリーニングだけでなく 新規構造創出を目的とした最適化も試行されている 24 ヴァーチャルスクリーニング 試験する化合物数を減らすことが可能 • 類似度検索 • QSAR •

    ドッキング 分子構造の最適化 Venkatasubramanianら(1995年) • 目的: ポリマーの最適化 物性値を指定した値に近づける • 手法: 遺伝的アルゴリズム • 主鎖・側鎖の構造の候補を与える • 分子構造をビットベクトルで表現 スクリーニング結果 活性予測 HTS ヴァーチャル スクリーニング結果 ライブラリ Review paper on molecular optimization: De Julian-Ortiz, J. V. "Virtual Darwinian Drug Design QSAR Inverse Problem, Virtual Combinatorial Chemistry, and Computational Screening." Combinatorial Chemistry & High Throughput Screening 4.3 (2001): 295-310. Venkatasubramanian, Venkat, King Chan, and James M. Caruthers. "Evolutionary design of molecules with desired properties using the genetic algorithm." Journal of Chemical Information and Computer Sciences 35.2 (1995): 188-195.
  20. AI創薬の問題設定(の多くは in silico 創薬で既に考えられている) 26 活性予測 • 入力: 𝑚𝑛 ,

    𝑦𝑛 ∈ ℳ × 𝒴 𝑛=1 𝑁 • 出力: 活性予測モデル 𝑓: ℳ → 𝒴 • 活性 • ADMET Icons: https://www.ebi.ac.uk/style-lab/general/fonts/ • 活性 • ADMET 構造最適化 • 入力: 目的関数 𝑓⋆: ℳ → 𝒴 • 出力: 𝑚⋆ = argmax 𝑚∈ℳ 𝑓⋆ 𝑚 • 標的の立体構造 • 薬剤候補化合物 立体構造予測 • 入力: 標的タンパクの立体構造, 薬剤候補化合物 • 出力: 複合体の立体構造
  21. In silico創薬と比べたときのAI創薬の特長(私見) 27 大規模データの活用 • 00年代〜20年代で多くの アッセイデータが蓄積された • データが増えると適した手法は 変わる

    手法・理論の精緻化 • In silico創薬では標準的な ML手法が 使われることが多い • ヒューリスティクスも多い • データ量の増加によりモダンな ML手法も使える場合が増えてきた 実業務との融合・運用 • In silico創薬技術は創薬化学者に 広く使われているとは言えない • MLもPoCの壁があるが,乗り越えた 経験をもつ人もいる • MLOpsなど運用の知見もある
  22. 以降の内容 33 MLで使われる分子構造の表現方法 • 記述子,フィンガープリント • グラフ • 文字列 分子構造を入力できるNN

    • MLP, 系列モデル, GNN, Transformer • 基盤モデル 分子構造を出力できるNN • 系列モデル • グラフ生成モデル 分子構造の最適化 • ブラックボックス最適化 • 強化学習
  23. In silico 創薬ではドメイン知識を用いて固定長ベクトルにする 35 Morgan フィンガープリント(再掲) 部分構造の有無を0/1ベクトルで表現 記述子 (molecular descriptors)

    簡単に計算/予測できる特徴量 • 分子量 • 水素結合のドナー/アクセプタの数 • 全炭素に対するsp3炭素の割合 多いほど立体的になる • logP(脂溶性の高さ(の推定値)) • TPSA(トポロジカル極性表面積) 極性をもつ表面積の推定値 Figure cited from Rogers, David, and Mathew Hahn. "Extended-connectivity fingerprints." Journal of chemical information and modeling 50.5 (2010): 742-754. Wildman, Scott A., and Gordon M. Crippen. "Prediction of physicochemical parameters by atomic contributions." Journal of chemical information and computer sciences 39.5 (1999): 868-873. Ertl, Peter, Bernhard Rohde, and Paul Selzer. "Fast calculation of molecular polar surface area as a sum of fragment-based contributions and its application to the prediction of drug transport properties." Journal of medicinal chemistry 43.20 (2000): 3714-3717. 0 1 1 0 0 1 0 0 0 ・・・ 𝒗 = ∈ 0,1 2048 固定長 ベクトル 固定長 ベクトル
  24. グラフと同等な表現としてSMILESと呼ばれる文字列表現がある 36 グラフによる表現 構造式をラベル付きグラフで表現 • 原子=ラベル付き頂点 座標を付与すると立体構造表現 • 結合=(多重)辺 /

    ラベル付き辺 SMILESによる文字列表現 Simplified molecular input line entry system • グラフを文字列表現したもの • 枝分かれは括弧で表現 • 環は開いて数字で対応付け Oc1ccc(NC(=O)C)cc1 Weininger, David. "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules." Journal of chemical information and computer sciences28.1 (1988): 31-36. 可変長 ベクトル グラフ
  25. 分子の表現方法には利点も欠点もあり,使い分けが必要 37 フィンガープリント/記述子 グラフ SMILES 概要 固定長ベクトル Oc1ccc(NC(=O)C)cc1 利点 •

    固定長なので使いやすい • 学習不要 • 小サンプルでも使える • よく使われる抽象化 • 立体情報も付与可能 • 機械学習で使いやすい • 情報量はグラフと同等 欠点 • データから学習不能 • 可変長 • NNの工夫が必要 • 可変長 • SMILES列は一意ではない
  26. RNNは隠れ状態を用いて可変長データを効率的に取り扱う 40 Recurrent neural networks (RNNs) • 任意の長さの系列を取り扱えるNN 固定長の隠れ状態 𝒉𝑡

    ∈ ℝ𝐻 𝑡=1 𝑇 に 情報を集約する • もっとも単純なRNN For 𝑡 = 1,2, … • 𝒉𝑡 = 𝜎 𝑊ih 𝒙𝑡 + 𝑊hh 𝒉𝑡−1 + 𝒃 • 𝒚𝑡 = 𝜎(𝑊ho 𝒉𝑡 ) • LSTMやGRUなど様々な構造がある 𝒗([sos]) 𝒗(c) 𝒗(1) 𝒗([eos]) 𝑦 ・・・ 𝒉0 𝒉1 𝒉2 Bayesian classification: Jastrzębski, Stanisław, Damian Leśniak, and Wojciech Marian Czarnecki. "Learning to SMILE(S)." International Conference on Learning Representations, Workshop (2016). Above model: Bjerrum, Esben Jannik. "SMILES enumeration as data augmentation for neural network modeling of molecules." arXiv preprint arXiv:1703.07076 (2017). 予測値
  27. Transformerは,入力系列の要素間の相互作用を考慮できる 41 自己注意機構+FFNを繰り返す Vaswani, A. et al. "Attention is all

    you need." Advances in Neural Information Processing Systems (2017). 𝒉1 𝑙−1 𝒉2 𝑙−1 𝒉3 𝑙−1 ⋮ 𝒉𝑁−1 𝑙−1 𝒉𝑁 𝑙−1 ⋮ ⋮ 𝒉1 𝑙 𝒉2 𝑙 𝒉3 𝑙 ⋮ 𝒉𝑁−1 𝑙 𝒉𝑁 𝑙 𝑙th FFN 𝑙th FFN 𝑙th FFN 𝑙th FFN 𝑙th FFN ⋮ 𝑙th 自己 注意 機構
  28. Transformerは,入力系列の要素間の相互作用を考慮できる 42 自己注意機構 𝑄 = − 𝒉1 ⊤ − ⋮

    − 𝒉𝑁 ⊤ − 𝑊𝑄 = − 𝒒1 ⊤ − ⋮ − 𝒒𝑁 ⊤ − ∈ ℝ𝑁×𝐷𝑘 𝐾 = − 𝒉1 ⊤ − ⋮ − 𝒉𝑁 ⊤ − 𝑊𝐾 = − 𝒌1 ⊤ − ⋮ − 𝒌𝑁 ⊤ − ∈ ℝ𝑁×𝐷𝑘 𝑉 = − 𝒉1 ⊤ − ⋮ − 𝒉𝑁 ⊤ − 𝑊𝑉 = − 𝒗1 ⊤ − ⋮ − 𝒗𝑁 ⊤ − ∈ ℝ𝑁×𝐷 𝐴 = − 𝒒1 ⊤ − ⋮ − 𝒒𝑁 ⊤ − | | 𝒌1 ⋯ 𝒌𝑁 | | 𝐷𝑘 Attn 𝐻 = RowSoftmax 𝐴 𝑉 ∈ ℝ𝑁×𝐷 𝐻′ = Attn1 (𝐻) ⋯ Attn𝐾 (𝐻) 𝑊𝑂 ∈ ℝ𝑁×𝐷 Vaswani, A. et al. "Attention is all you need." Advances in Neural Information Processing Systems (2017). 入力長 自己注意機構の 出力
  29. 入力全体に対する特徴量は,モデルの出力をプーリングするか 特殊トークンを用いて定義する 43 SMILES Transformer オートエンコーダ風に事前学習後, エンコーダを用いて予測器を構成 ChemBERTa マスク言語モデル風に事前学習後, [cls]トークンに対応する出力を用いて

    予測器を構成 Honda, Shion, Shoi Shi, and Hiroki R. Ueda. "SMILES Transformer: Pre-trained molecular fingerprint for low data drug discovery." arXiv preprint arXiv:1911.04738 (2019). Chithrananda, Seyone, Gabriel Grand, and Bharath Ramsundar. "ChemBERTa: large-scale self-supervised pretraining for molecular property prediction." arXiv preprint arXiv:2010.09885 (2020). Transformer c1c(O)ccc(NC(=O)C)c1 𝑦 Encoder-only Transformer [cls]c1c(O)ccc(NC(=O)C)c1 プーリング 事前学習 𝑦
  30. グラフニューラルネットはグラフを入力する時に使いやすい 44 Message passing neural networks (MPNNs) 𝒉𝑣 0 =

    𝒙𝑣 (各頂点𝑣 ∈ 𝑉の特徴量ベクトル) 𝒎𝑣 (𝑙+1) = ෍ 𝑢∈𝒩(𝑣) 𝑀 𝑙 𝒉𝑣 (𝑙), 𝒉𝑢 𝑙 , 𝑒𝑢𝑣 𝒉𝑣 𝑙+1 = 𝑈 𝑙 𝒉𝑣 𝑙 , 𝒎𝑣 𝑙+1 (𝑙 = 0,1, … , 𝐿 − 1) • 出力: 𝒉𝐺 = 𝑅 𝒉𝑣 𝐿 𝑣∈𝑉 Gilmer, Justin, et al. "Neural message passing for quantum chemistry." International conference on machine learning. PMLR, 2017. u v u' u” 𝑀 𝑙 𝒉𝑣 (𝑙), 𝒉𝑢 𝑙 , 𝑒𝑢𝑣 メッセージ 𝑣の近傍 𝒩(𝑣) 頂点𝑣の 隠れベクトル𝒉𝑣 𝑙 𝒉𝑢 𝑙
  31. Transformer を工夫してグラフを扱えるようにする手法もある 45 Graphomer Transformerでグラフを処理したい • 頂点=トークン • 辺=? 1.

    空間的エンコーディング • 𝜙 𝑣𝑖 , 𝑣𝑗 ≔ 𝑣𝑖 , 𝑣𝑗 間の最短経路長 • 𝑏𝑙 ∈ ℝ 𝑙=1 𝐿max: パラメタ 𝐴𝑖𝑗 += 𝑏𝜙 𝑣𝑖,𝑣𝑗 例えば𝑏𝑙 が𝑙について減少するならば 近い頂点対により注意が集まる 2. 辺特徴量の考慮 • (𝑒1 , … , 𝑒𝐿 ): 𝑣𝑖 , 𝑣𝑗 の最短経路上の辺 • 𝒙𝑒𝑙 ∈ ℝ𝐷𝑒: 辺𝑒𝑙 の特徴量ベクトル • 𝒘𝑙 ∈ ℝ𝐷𝑒 𝑙=1 𝐿max : パラメタ 𝐴𝑖𝑗 += 1 𝐿 ෍ 𝑙=1 𝐿 𝒙𝑒𝑙 ⋅ 𝒘𝑙 3. 中心性エンコーディング • 𝒙𝑣 ∈ ℝ𝐷𝑣: 頂点𝑣の特徴量ベクトル • 𝒛𝑚 ∈ ℝ𝐷𝑣 𝑚=0 𝑀max: パラメタ 𝒉𝑛 0 = 𝒙𝑣𝑛 + 𝒛deg 𝑣𝑛 Ying, Chengxuan, et al. "Do Transformers really perform badly for graph representation?." Advances in neural information processing systems 34 (2021): 28877-28888.
  32. 基盤モデルを用いて,より予測性能を高める試みがある 46 基盤モデルのアプローチ • 大規模データで巨大な基盤モデルを 事前学習 • 下流タスクのデータで精緻な学習 化合物データでの事前学習の手段 •

    オートエンコーダ • 言語モデルでの事前学習方法の流用 • マルチタスク学習 オートエンコーダ • (変分)オートエンコーダとして学習 • エンコーダ部分を特徴量抽出器とする Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276. Honda, Shion, Shoi Shi, and Hiroki R. Ueda. "SMILES Transformer: Pre-trained molecular fingerprint for low data drug discovery." arXiv preprint arXiv:1911.04738 (2019). エンコーダ デコーダ c1c(O)ccc(NC(=O)C)c1 c1c(O)ccc(NC(=O)C)c1
  33. 基盤モデルを用いて,より予測性能を高める試みがある 47 基盤モデルのアプローチ • 大規模データで巨大な基盤モデルを 事前学習 • 下流タスクのデータで精緻な学習 化合物データでの事前学習の手段 •

    オートエンコーダ • 言語モデルでの事前学習方法の流用 • マルチタスク学習 言語モデルでの事前学習方法の流用 • マスク言語モデリングで事前学習 • ラベル付きデータで精緻な学習 Chithrananda, Seyone, Gabriel Grand, and Bharath Ramsundar. "ChemBERTa: large-scale self-supervised pretraining for molecular property prediction." arXiv preprint arXiv:2010.09885(2020). Ahmad, Walid, et al. "Chemberta-2: Towards chemical foundation models." arXiv preprint arXiv:2209.01712 (2022). BERT [cls]c1*(O)c*c*NC(=O)C)c1[eos] [cls] c1c(O)ccc(NC(=O)C)c1[eos]
  34. 基盤モデルを用いて,より予測性能を高める試みがある 48 基盤モデルのアプローチ • 大規模データで巨大な基盤モデルを 事前学習 • 下流タスクのデータで精緻な学習 化合物データでの事前学習の手段 •

    オートエンコーダ • 言語モデルでの事前学習方法の流用 • マルチタスク学習 マルチタスク学習 • ラベル付きデータセットを用いた マルチタスク学習 • ラベル付きデータでより精緻な学習 Beaini, Dominique, et al. "Towards Foundational Models for Molecular Learning on Large-Scale Multi-Task Datasets." The Twelfth International Conference on Learning Representations. Property A: 1.1 Property B: 0.1 Property C: -2.3 Property D: 50.7 Property E: 1
  35. サンプルサイズに応じて予測モデルの学習手法を選ぶ. 古典的な手法も試すとよい. 49 サンプルサイズが小さい場合 1. FP・記述子+古典的なML これで全く予測できなかったら データが良くない可能性もある 2. 基盤モデル+精緻な学習

    単体のデータセットではNNの学習が 難しいことが多いが,基盤モデルを 使うと性能が出ることがある サンプルサイズが十分大きい場合 1. FP・記述子+古典的なML XGBoostなどの手法の性能が 良いことが多い 2. ニューラルネットワーク ハイパーパラメタ調整をしっかり やると性能が出ることが多い 3. 基盤モデル+精緻な学習 (マルチタスク学習だと)負の転移 などが起きる or 高々2と同等の性能 になることもある
  36. SMILES表現を用いると,系列モデルで分子構造を生成できる 52 分子グラフ生成を文字列生成に帰着 • 課題: グラフの生成は難しそう 特に環の生成が非自明 • 解決法: 系列の生成に帰着

    • SMILES系列で表現すれば系列 • データセットに含まれるSMILES 系列を出力できるように学習 • この手法の課題 出力系列がSMILESの文法を違反する 場合がある c1c(O)ccc(NC(=O)C)c1 𝒗( sos ) c 𝒗(c) 1 𝒗(1) c 𝒗(c) ( ・・・ 入力系列 𝒗 𝑥𝑡 ∈ ℝ𝐷emb 𝑡=1 𝑇 出力系列 ෝ 𝑦𝑡 ∈ Σ 𝑡=1 𝑇 隠れベクトル 𝒉𝑡 ∈ ℝ𝐻 埋め込み ベクトル Softmaxで 予測 𝒉0 Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276. Segler, Marwin HS, et al. "Generating focused molecule libraries for drug discovery with recurrent neural networks." ACS central science 4.1 (2018): 120-131.
  37. グラフを追加し辺で結ぶことを繰り返してグラフを生成する 53 Molecule-Level Representation (MoLeR) Fig cited from Maziarz, Krzysztof,

    et al. "Learning to Extend Molecular Scaffolds with Structural Motifs."International Conference on Learning Representations 2022. 今のグラフをもとに 次に追加するパーツを選ぶ or 終了 繰り返し 潜在ベクトル𝒛
  38. 生成モデルは,用途や使いやすさに応じて手法を選ぶとよい 54 文字列にもとづく生成モデル SMILES, SELFIES, MHG, etc. • Pros •

    単純なモデルで動く • 実装が簡単 • Cons • 変な分子構造が生成されることがある • 原子価を無視した構造 • 明らかに不安定な構造 • 拡張が難しいことが多い • 基本骨格の指定 グラフを直接生成する生成モデル JT-VAE, GCPN, MoLeR, etc. • Pros • 変な分子構造が生成されにくい • 拡張しやすいことが多い • Cons • モデルが複雑になりがち • 実装が難しい
  39. 分子構造空間の探索のために生成モデルを用いる 56 分子構造の最適化問題 𝑓⋆: ℳ → ℝ : 評価関数 𝑚⋆

    = argmax 𝑚∈ℳ 𝑓⋆ 𝑚 課題 • 分子構造の空間ℳの効率的な探索 多様な構造を探索しにくい • 評価関数が不明 活性やADMETの性質を正確には 計算できない →予測モデルで代用する 生成モデルを用いた最適化手法 生成モデルを 𝑝(𝑚 ∣ 𝒛) とし,代わりに 𝒛⋆ = max 𝒛∈𝒵 𝔼𝑀∼𝑝 ⋅ 𝒛 [𝑓⋆(𝑀)] を解く.そして 𝑀⋆ ∼ 𝑝(⋅∣ 𝒛⋆) を解の候補とする. Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276. Olivecrona, Marcus, et al. "Molecular de-novo design through deep reinforcement learning." Journal of cheminformatics 9 (2017): 1-14. 探索しやすい 空間
  40. 分子構造空間ℳとℝ𝐻とを対応付けることで 汎用的な最適化手法を使いやすくする 57 ブラックボックス最適化を用いた手法 • 事前準備: 生成モデル 𝑝𝜃 (𝑚 ∣

    𝒛) の学習 変分オートエンコーダのデコーダとして学習 max 𝜃,𝜙, መ 𝑓 𝔼(𝑀,𝑌)∼𝒟 𝔼𝑍∼𝑞𝜙 ⋅ 𝑀 − log 𝑝𝜃 𝑀 𝑍 + KL 𝑞𝜙 ⋅ 𝑀 ∥ 𝑝𝑍 − 𝜆 ⋅ ℓ(𝑌, መ 𝑓(𝑍)) Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276. ELBO エンコーダ 𝑞𝜙(𝒛 ∣ 𝑚) デコーダ 𝑝𝜃 (𝑚 ∣ 𝒛) c1c(O)ccc(NC(=O)C)c1 c1c(O)ccc(NC(=O)C)c1 𝑦 𝒛 評価関数 推定のための 目的関数 分子構造と その評価関数値の対
  41. ベイズ最適化や粒子群最適化など汎用的な最適化手法を用いる 58 ブラックボックス最適化を用いた手法 • 任意のブラックボックス最適化で評価関数値を最大にする潜在表現 𝒛⋆ ∈ ℝ𝐻 を得る 𝒛⋆

    = argmax 𝒛∈ℝ𝐻 መ 𝑓(𝒛) • 得られた潜在表現をデコーダで分子構造に戻し,それを解とする Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276. デコーダ 𝑦 𝒛⋆ 𝑚⋆
  42. 強化学習を適用する際には生成モデルを方策と見なす 59 分子構造の生成をマルコフ決定過程でモデル化 • 生成モデルをそのまま方策 𝜋𝜃 (𝑎 ∣ 𝑠) とみなせることが多い

    • 最終状態で評価関数に相当する報酬を得る 𝒗( sos ) 𝑎1 = c 𝒗(c) 𝑎2 = 1 𝒗(1) 𝑎3 = c 𝒗(c) 𝑎4 ・・・ 𝒉0 𝑠4 = ( sos , c, 1, c) 𝑠1 = ([sos]) 𝑎𝑇 = [eos] 𝒗(1) 𝑟𝑇 𝑠𝑇 , 𝑎𝑇 = መ 𝑓(𝑚) 完成した分子の 評価値(推定値) Olivecrona, Marcus, et al. "Molecular de-novo design through deep reinforcement learning." Journal of cheminformatics 9 (2017): 1-14.
  43. 汎用的な強化学習アルゴリズムを用いて分子構造最適化できる 60 任意の強化学習アルゴリズムで最適方策を求めればよい • 期待累積報酬が最大になるように方策のパラメタ𝜃を決める 𝜃⋆ = argmax 𝜃∈Θ 𝐽(𝜃)

    𝐽 𝜃 = 𝔼𝜋𝜃 ෍ 𝑡=1 𝑇 𝑟 𝑆𝑡 , 𝐴𝑡 = 𝔼𝑀∼𝑝𝜃 ⋅ መ 𝑓 𝑀 • 生成モデル𝑝𝜃⋆(𝑚)から生成した分子構造を解とする 𝑀⋆ ∼ 𝑝𝜃⋆
  44. 最適化手法は,用途に合わせて選べばよい. 評価関数を予測モデルにする場合は適用範囲に気をつける. 61 BB最適化 vs. 強化学習(RL) • 最適化能力: RL >

    BB 本来の問題をより直接的に解いている • 分子の薬っぽさの制御能力: RL < BB? • 生成モデル 𝑝(𝑚 ∣ 𝒛) は薬っぽい 分子構造を生成するように学習 • BBでは生成モデルのパラメタを固定 • RLでは生成モデルのパラメタを更新 制約をかけて薬っぽさの制御する 場合もある 評価関数を予測モデルで代用する功罪 Pros: • 汎用的なので幅広い対象に対して とりあえずの解を出せる Cons: • 適用範囲外の分子が最適解になりがち 不確かさが高い領域では 「まぐれ当たり」する • そもそも手法の優劣も評価しづらい Olivecrona, Marcus, et al. "Molecular de-novo design through deep reinforcement learning." Journal of cheminformatics 9 (2017): 1-14. You, Jiaxuan, et al. "Graph convolutional policy network for goal-directed molecular graph generation." Advances in neural information processing systems 31 (2018). Kajino, Hiroshi, Kohei Miyaguchi, and Takayuki Osogami. "Biases in evaluation of molecular optimization methods and bias reduction strategies." International Conference on Machine Learning. PMLR, 2023.
  45. 創薬AIは創薬のための技術なので実業務とのすり合わせが必要 63 これまでのAI創薬研究の課題 創薬の実業務との関連性が薄い • 分子構造最適化の使いどころがない 自称最適な奇天烈な構造が出てきても 合成できない/する気にならない • ベンチマークが実務に即していない

    • 罰則付きlogP最大化 手法の検証が弱い • 罰則付きlogP最大化なら SMILES-LSTM + RL で十分 • SMILES-VAE + BO もわりと動く よくベンチマークで性能が一番下の ものとして報告されるが… AI創薬研究に参入するために必要なこと 創薬のドメイン知識がある人と組む • 需要のある問題設定に取り組める • 適切な仮定がわかる • 意味のあるベンチマーク • 出てきた結果の解釈ができる • 実データを使える? • 応用に至る壁が見えてくる 過去の手法も検証する • In silico 創薬のツール含め, 実は普通に使える手法もある • 非DNN手法も試す (未だに非DNN vs. DNN論争がある)
  46. より実務に近い問題設定を取り扱う研究も多い 64 基本骨格制約つき最適化 • リード最適化では基本骨格は固定し 装飾を変えることが多い • 基本骨格から生成をはじめるモデル 合成可能性を考慮した最適化 •

    生成した化合物は,良さそうであれば 合成して試験したい →合成経路も知りたい • 化学反応に基づく生成モデルを用いる 特許の回避 • 薬として売り出すには既存の 物質特許を回避したい • 特許を取られているかどうかを 報酬に追加 Human-in-the-loop • ADMETのどの制約を重視するのかは 創薬化学者次第なところがある • 創薬化学者からのフィードバックを 活用する Lim, Jaechang, et al. "Scaffold-based molecular design with a graph generative model." Chemical science 11.4 (2020): 1153-1164. Maziarz, Krzysztof, et al. "Learning to Extend Molecular Scaffolds with Structural Motifs." International Conference on Learning Representations 2022. Gottipati, Sai Krishna, et al. "Learning to navigate the synthetically accessible chemical space using reinforcement learning." International conference on machine learning. PMLR, 2020. Shimizu, Yugo, et al. "AI-driven molecular generation of not-patented pharmaceutical compounds using world open patent data." Journal of Cheminformatics 15.1 (2023): 120. Sundin, Iiris, et al. "Human-in-the-loop assisted de novo molecular design." Journal of Cheminformatics 14.1 (2022): 86.
  47. まとめ 65 創薬のプロセスの全体像を紹介した • 投資額の増大・成功確率の低下 • AI創薬の多くは研究段階を対象とする • 全体を考えると開発段階や臨床試験も 重要である

    In silico 創薬の概要を紹介した • SBDD=標的の立体構造を使う • LBDD= 〃 使わない • QSARのように機械学習技術を使う 領域も多い • ドメイン知識が反映された手法が多い 機械学習の創薬応用を紹介した • 分子構造の表現方法 • 予測モデル • 生成モデル • 分子構造最適化 創薬AI研究の課題と展望を紹介した • よりドメイン知識を取り入れる • 実データ,実タスクがより重要になる