創薬における機械学習技術について

創薬における機械学習技術について梶野洸

自己紹介 2 梶野洸（かじのひろし） • 2016/3: 東大情報理工数理情報博士課程修了
機械学習，プライバシ保護，クラウドソーシング • 2016/4-2024/2: IBM Research – Tokyo 機械学習の研究＋お客様プロジェクト支援 • 2024/2-: 個人事業主機械学習の研究＋お客様プロジェクト主導・支援・すべて Axcelead社でのAI創薬立ち上げ研究の興味: 役に立ちそうで立たなくてでもちょっと役に立つ機械学習例）分子構造の最適化，Spiking neural networks

[PR] 書籍2冊，販売中です！機械学習で分子構造を取り扱う方法がわかる強化学習を数式で理解できる 3

本日の内容 4 1. 創薬の基本的な流れ 2. In silico 創薬の概要特に computer-aided
drug design 3. 創薬応用に関連した機械学習手法 4. AI創薬の課題と今後の方向性

医薬品＝生体内因子の制御を通じて病態を改善する化合物 5 例: 血中コレステロール値を下げたい • 動機: 血管周りの病気の危険因子 • 医薬品: メバロチン
• 作用機序: HMG-CoA recutaseの阻害 • 体内でコレステロールを作る経路の1つがメバロン酸経路 • その経路を邪魔すれば血中コレステロールが減りそう • メバロチンは途中の反応の触媒となる酵素の働きを阻害する HMG-CoA Mevalonic acid コレステロール・・・ HMG-CoA recutase 触媒となる酵素

薬を創るために必要なこと 6 1. 標的を決める • 標的とするタンパク質, 核酸, etc. • どの働きを阻害/作動するか
2. 標的を制御する化合物を見つける • モダリティ（制御に用いるもの） • 低分子 • ペプチド • 抗体 • 核酸 etc. • 少量でも活性を示すものが望ましい（≒薬効 > 毒性となるもの） 3. 薬として満たすべき性質を確保する • 薬物動態（ADME） • 吸収 (absorption) • 分布 (distribution) • 代謝 (metabolism) • 排泄 (excretion) • 毒性 (toxicology) 小腸で吸収肝臓で代謝血液にのって全身に分布腎臓から排泄

創薬の標準的な手続き 7 ヒット化合物の探索 • ヒット化合物 • 標的に対して活性を示す • 選択性あり
• 手段 High-throughput screening (HTS)など • 入力: 105~106個の化合物 • 出力: 100~102個のヒットリード化合物の探索・最適化 • リード化合物 • 高い薬理活性 • 許容できる ADMET • 知財 • 手段創薬化学者が構造活性相関を見ながら化合物を最適化する非臨床試験 • 細胞/動物で薬効や毒性の試験をする • 生体内での薬の動きを調べる • ガイドラインに従ったプロトコルの試験が必要臨床試験ヒトでの有効性や安全性を検証する 1. 薬の安全性や適切な投与量を調べる 2. 安全性と有効性を調べる 3. 標準治療と比較して有効性を確認承認発売＋市販後も調査 4年前後＋α 1-2年 7年前後

基礎研究から承認まで76億円超かかるが，成功確率や期間を加味すると1新薬を上市するためには1415億円必要となる 8 高橋, 岡田: “医薬品の研究開発の実態~アンケート調査に基づく研究開発期間、成功確率、研究開発費用~”, 日本製薬工業協会医薬産業政策研究所リサーチペーパーシリーズ No.
82 (2024/3)

基礎研究から承認まで76億円超かかるが，成功確率や期間を加味すると1新薬を上市するためには1415億円必要となる 9 高橋, 岡田: “医薬品の研究開発の実態~アンケート調査に基づく研究開発期間、成功確率、研究開発費用~”, 日本製薬工業協会医薬産業政策研究所リサーチペーパーシリーズ No.
82 (2024/3) 機械学習技術で効率化したり成功確率を高められるか？

10 In silico 創薬特にComputer-aided drug design

Computer-aided drug design (CADD)は，計算機を用いて薬剤候補を設計する手法である 11 リガンドベース設計 Ligand-based drug design
(LBDD) 既知の活性をもつ化合物を用いる手法群 • 必要な情報: • 化合物𝑛, 活性値𝑛 𝑛=1 𝑁 • or 活性のある化合物の集合 • 代表的な手法: • 類似度検索 • Quantitative structure-activity relationship (QSAR) 構造ベース設計 Structure-based drug design (SBDD) 標的タンパク質の立体構造情報を用いる手法群 • 必要な情報: • 標的タンパク質の立体構造 • 結合サイトの情報（相互作用に関与する残基など） • 代表的な手法: • ドッキング • 分子動力学法

活性のある化合物と類似した化合物は活性があると期待できる 12 類似化合物検索 • 入力: • 活性のある化合物 ℛ = 𝑚𝑛
(𝑟) ∈ ℳ 𝑛=1 𝑁 • 化合物ライブラリ ℒ = 𝑚𝑘 (𝑙) ∈ ℳ 𝑘=1 𝐾 • 類似度 sim: ℳ × ℳ → ℝ • 閾値 𝜏 ∈ ℝ • 出力 𝑚 ∈ ℒ ∃𝑚 𝑟 ∈ ℛ s. t. sim 𝑚, 𝑚 𝑟 ≥ 𝜏} • 気持ち: 活性のある化合物に似た化合物は活性がありそう類似度の定義化合物の表現方法によって様々な類似度の定義が存在する • グラフ表現 • 立体構造表現ライブラリの濃縮をしたい分子全体の集合

グラフ表現の類似度は，部分構造の有無を元に定義できる 13 Morgan フィンガープリント部分構造の有無を0/1ベクトルで表現谷本類似度 0/1ベクトル同士の類似度計算に使用 𝑠 𝒗1 ,
𝒗2 = 𝒗1 ⋅ 𝒗2 𝒗1 ⋅ 𝟏 + 𝒗2 ⋅ 𝟏 − 𝒗1 ⋅ 𝒗2 ∈ [0,1] Figure cited from Rogers, David, and Mathew Hahn. "Extended-connectivity fingerprints." Journal of chemical information and modeling 50.5 (2010): 742-754. 0 1 1 0 0 1 0 0 0 ・・・ 𝒗 = ∈ 0,1 2048 化合物1と2で共通する部分構造の数化合物1と2に出現する部分構造の総数

立体構造の類似度は，共通部分の体積を用いて定義できる 14 原子のガウシアン表現 • 各原子𝑖の中心座標を𝑹𝑖 ∈ ℝ3とする • 各原子𝑖を以下のガウシアンで表現 𝜌𝑖
𝒓 = 𝑝𝑖 exp − 𝒓 − 𝑹𝑖 2 𝜎𝑖 2 ただし𝑝𝑖 は∫ 𝜌𝑖 𝒓 d𝒓 = 4𝜋 3 𝜎𝑖 2となるように設定分子のガウシアン表現（≒ソフト球表現） 𝜌 𝒓 = ෍ 𝑖 𝜌𝑖 (𝒓) − ෍ 𝑖<𝑗 𝜌𝑖 𝒓 𝜌𝑗 𝒓 + ෍ 𝑖<𝑗<𝑘 𝜌𝑖 𝒓 𝜌𝑗 𝒓 𝜌𝑘 𝒓 − ⋯ • 分子のソフトな体積は解析的に計算可能 𝑉 = ∫ 𝜌 𝒓 d𝒓 Grant, J. Andrew, and B. T. Pickup. "A Gaussian description of molecular shape." The Journal of Physical Chemistry 99.11 (1995): 3503-3510. Grant, J. Andrew, Maria A. Gallardo, and Barry T. Pickup. "A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape." Journal of computational chemistry 17.14 (1996): 1653-1666. ガウシアンになる

立体構造の類似度は，共通部分の体積を用いて定義できる 15 2つの分子A,Bの共通部分の体積（アラインメント済みの場合） 𝑉𝐴,𝐵 = ∫ 𝜌𝐴 𝒓 𝜌𝐵
𝒓 d𝒓 2つの分子A,Bの共通部分を求める問題（未アラインメントの場合） max 𝑔∈SE(3) ∫ (𝑔 ∘ 𝜌𝐴 ) 𝒓 𝜌𝐵 𝒓 d𝒓 立体構造に対する谷本類似度 sim 𝑚𝐴 , 𝑚𝐵 = 𝑉𝐴,𝐵 𝑉𝐴 + 𝑉𝐵 − 𝑉𝐴,𝐵 • ソフトな体積を用いると 3次元形状の類似度を測れる • 特定の機能 (pharmacophore)を持った原子のみに注目した体積を用いると，より機能に注目した類似度を測れる回転・並進して分子AとBが最も重なりあうようにする解析的に計算可能＆座標に関する勾配も計算可能

QSARは化合物の構造と活性との相関を推定する．適用範囲も推定することが多い． 16 定量的構造活性相関 (QSAR) • 用途: • ヴァーチャルスクリーニング •
リード最適化での構造変換の指針 • 入力: 化合物と標的への活性値の対 𝑚𝑛 , 𝑦𝑛 ∈ ℳ × 𝒴 𝑛=1 𝑁 • 出力: 活性予測モデル 𝑓: ℳ → 𝒴 適用範囲入力空間の中で予測が信頼できる範囲を規定する • 手法例: 訓練データから適当に定める Hansch, Corwin, and Toshio Fujita. "p-σ-π Analysis. A Method for the Correlation of Biological Activity and Chemical Structure." Journal of the American Chemical Society 86.8 (1964): 1616-1626. Gadaleta, Domenico, et al. "Applicability domain for QSAR models: where theory meets reality." International journal of quantitative structure-property relationships (IJQSPR) 1.1 (2016): 45-63. 1点1点が訓練事例化合物空間

リード最適化での構造変換の指針 • 入力: 化合物と標的への活性値の対 𝑚𝑛 , 𝑦𝑛 ∈ ℳ × 𝒴 𝑛=1 𝑁 • 出力: 活性予測モデル 𝑓: ℳ → 𝒴 適用範囲入力空間の中で予測が信頼できる範囲を規定する • 手法例: 訓練データから適当に定める Hansch, Corwin, and Toshio Fujita. "p-σ-π Analysis. A Method for the Correlation of Biological Activity and Chemical Structure." Journal of the American Chemical Society 86.8 (1964): 1616-1626. Gadaleta, Domenico, et al. "Applicability domain for QSAR models: where theory meets reality." International journal of quantitative structure-property relationships (IJQSPR) 1.1 (2016): 45-63. 軸ごとに最大値・最小値を求める

リード最適化での構造変換の指針 • 入力: 化合物と標的への活性値の対 𝑚𝑛 , 𝑦𝑛 ∈ ℳ × 𝒴 𝑛=1 𝑁 • 出力: 活性予測モデル 𝑓: ℳ → 𝒴 適用範囲入力空間の中で予測が信頼できる範囲を規定する • 手法例: 訓練データから適当に定める Hansch, Corwin, and Toshio Fujita. "p-σ-π Analysis. A Method for the Correlation of Biological Activity and Chemical Structure." Journal of the American Chemical Society 86.8 (1964): 1616-1626. Gadaleta, Domenico, et al. "Applicability domain for QSAR models: where theory meets reality." International journal of quantitative structure-property relationships (IJQSPR) 1.1 (2016): 45-63. PCAしつつ軸ごとに最大値・最小値を求める

リード最適化での構造変換の指針 • 入力: 化合物と標的への活性値の対 𝑚𝑛 , 𝑦𝑛 ∈ ℳ × 𝒴 𝑛=1 𝑁 • 出力: 活性予測モデル 𝑓: ℳ → 𝒴 適用範囲入力空間の中で予測が信頼できる範囲を規定する • 手法例: 訓練データから適当に定める Hansch, Corwin, and Toshio Fujita. "p-σ-π Analysis. A Method for the Correlation of Biological Activity and Chemical Structure." Journal of the American Chemical Society 86.8 (1964): 1616-1626. Gadaleta, Domenico, et al. "Applicability domain for QSAR models: where theory meets reality." International journal of quantitative structure-property relationships (IJQSPR) 1.1 (2016): 45-63. 類似している訓練事例の有無で決める

QSARモデルの適切な性能評価は難しい 20 事例1: ヴァーチャルスクリーニング • 目的: 活性をもつ未知の骨格を探索 • ランダム分割による評価は楽観的すぎる訓練分割とテスト分割に同じ骨格が入る
• 骨格に応じた分割やクラスタリングに基づく分割が望ましい事例2: リード最適化 • 目的: 有望な骨格の局所最適化 • Time-split: 試験日時をもとに分割骨格ごとに評価したりもする骨格B 骨格A 骨格C リード最適化で探索したい範囲骨格D VSで探索したい範囲 Sheridan, Robert P. "Time-split cross-validation as a method for estimating the goodness of prospective prediction." Journal of chemical information and modeling 53.4 (2013): 783-790.

ドッキングシミュレーションは，薬剤候補化合物と標的タンパク質の複合体の立体構造を予測する 21 ドッキングアルゴリズム • 入力: • 標的タンパク質の立体構造 • 結合サイトの場所
• リガンドの立体構造 • 出力: • 標的タンパク質とリガンドの複合体 • 結合親和性注）様々な事情により，正確な出力が求まるとは限らない共結晶構造: Nagar, Bhushan, et al. "Crystal structures of the kinase domain of c-Abl in complex with the small molecule inhibitors PD173955 and imatinib (STI-571)." Cancer research 62.15 (2002): 4236-4243. ドッキング: Forli, Stefano, et al. "Computational protein–ligand docking and virtual drug screening with the AutoDock suite." Nature protocols11.5 (2016): 905-919. リガンド標的タンパク質

リガンドの立体配座の表現，立体配座を評価するスコア関数とそれを最適化するアルゴリズムが構成要素である 22 立体配座の表現例 • リガンドの中心位置（自由度3） • リガンドの方向（自由度3） • 回転可能な結合の回転（自由度K）
スコア関数 • 力場に基づいたスコア関数 vdW/静電相互作用など • 経験的スコア関数 • 適当なポテンシャル関数の線形和 • 重みはデータから推定最適化アルゴリズム • MCMC • 勾配法 • 遺伝的アルゴリズム See. for example. Trott, Oleg, and Arthur J. Olson. "AutoDock Vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading." Journal of computational chemistry 31.2 (2010): 455-461.

In silico創薬は様々な計算機科学の技法を用いて創薬を支援する 23 ヒット化合物の探索 • 目的: 標的に対する活性をもつ＆選択性の高い化合物を探す • 現場での実施例:
O(105)の化合物を HTSにかけて O(102)くらいの化合物に絞る • 支援例:ヴァーチャルスクリーニング • ドッキング • QSAR リード最適化 • 目的: • より活性を高める • ADMETプロファイルを改善する • 既存の特許を回避する • 現場での実施例: • 周辺化合物を網羅的に合成・試験 • 構造活性相関を見ながら展開 • 支援例: • QSARによる定量的な指針を与える • 分子構造の最適化

CADDの応用例として，スクリーニングだけでなく新規構造創出を目的とした最適化も試行されている 24 ヴァーチャルスクリーニング試験する化合物数を減らすことが可能 • 類似度検索 • QSAR •
ドッキング分子構造の最適化 Venkatasubramanianら（1995年） • 目的: ポリマーの最適化物性値を指定した値に近づける • 手法: 遺伝的アルゴリズム • 主鎖・側鎖の構造の候補を与える • 分子構造をビットベクトルで表現スクリーニング結果活性予測 HTS ヴァーチャルスクリーニング結果ライブラリ Review paper on molecular optimization: De Julian-Ortiz, J. V. "Virtual Darwinian Drug Design QSAR Inverse Problem, Virtual Combinatorial Chemistry, and Computational Screening." Combinatorial Chemistry & High Throughput Screening 4.3 (2001): 295-310. Venkatasubramanian, Venkat, King Chan, and James M. Caruthers. "Evolutionary design of molecules with desired properties using the genetic algorithm." Journal of Chemical Information and Computer Sciences 35.2 (1995): 188-195.

25 AI創薬

AI創薬の問題設定（の多くは in silico 創薬で既に考えられている） 26 活性予測 • 入力: 𝑚𝑛 ,
𝑦𝑛 ∈ ℳ × 𝒴 𝑛=1 𝑁 • 出力: 活性予測モデル 𝑓: ℳ → 𝒴 • 活性 • ADMET Icons: https://www.ebi.ac.uk/style-lab/general/fonts/ • 活性 • ADMET 構造最適化 • 入力: 目的関数 𝑓⋆: ℳ → 𝒴 • 出力: 𝑚⋆ = argmax 𝑚∈ℳ 𝑓⋆ 𝑚 • 標的の立体構造 • 薬剤候補化合物立体構造予測 • 入力: 標的タンパクの立体構造, 薬剤候補化合物 • 出力: 複合体の立体構造

In silico創薬と比べたときのAI創薬の特長（私見） 27 大規模データの活用 • 00年代〜20年代で多くのアッセイデータが蓄積された • データが増えると適した手法は変わる
手法・理論の精緻化 • In silico創薬では標準的な ML手法が使われることが多い • ヒューリスティクスも多い • データ量の増加によりモダンな ML手法も使える場合が増えてきた実業務との融合・運用 • In silico創薬技術は創薬化学者に広く使われているとは言えない • MLもPoCの壁があるが，乗り越えた経験をもつ人もいる • MLOpsなど運用の知見もある

モデルとしては，分子構造を入出力できるニューラルネットワークがあれば多くの応用をカバーできる 28 分子構造を入力できるNN 分子構造を出力できるNN NN 固定長ベクトル NN 固定長
ベクトル

分子構造を入力できるNNがあれば，予測モデルを作れる 29 NN 固定長ベクトル NN ラベル

分子構造を出力できるNNがあれば，最適化手法と組み合わせて分子構造を最適化できる 30 NN 固定長ベクトル

分子構造を出力できるNNがあれば，最適化手法と組み合わせて分子構造を最適化できる 31 NN 固定長ベクトル NN 94.0 予測モデルブラックボックス関数
𝑓(𝒙) 生成モデル

分子の立体構造を出力できるNNがあれば，複合体の立体構造を生成できる 32 NN 固定長ベクトル ※今回は時間の都合上立体構造の生成は取り扱わない

以降の内容 33 MLで使われる分子構造の表現方法 • 記述子，フィンガープリント • グラフ • 文字列分子構造を入力できるNN
• MLP, 系列モデル, GNN, Transformer • 基盤モデル分子構造を出力できるNN • 系列モデル • グラフ生成モデル分子構造の最適化 • ブラックボックス最適化 • 強化学習

34 分子構造の表現方法

In silico 創薬ではドメイン知識を用いて固定長ベクトルにする 35 Morgan フィンガープリント（再掲）部分構造の有無を0/1ベクトルで表現記述子 (molecular descriptors)
簡単に計算/予測できる特徴量 • 分子量 • 水素結合のドナー/アクセプタの数 • 全炭素に対するsp3炭素の割合多いほど立体的になる • logP（脂溶性の高さ（の推定値）） • TPSA（トポロジカル極性表面積）極性をもつ表面積の推定値 Figure cited from Rogers, David, and Mathew Hahn. "Extended-connectivity fingerprints." Journal of chemical information and modeling 50.5 (2010): 742-754. Wildman, Scott A., and Gordon M. Crippen. "Prediction of physicochemical parameters by atomic contributions." Journal of chemical information and computer sciences 39.5 (1999): 868-873. Ertl, Peter, Bernhard Rohde, and Paul Selzer. "Fast calculation of molecular polar surface area as a sum of fragment-based contributions and its application to the prediction of drug transport properties." Journal of medicinal chemistry 43.20 (2000): 3714-3717. 0 1 1 0 0 1 0 0 0 ・・・ 𝒗 = ∈ 0,1 2048 固定長ベクトル固定長ベクトル

グラフと同等な表現としてSMILESと呼ばれる文字列表現がある 36 グラフによる表現構造式をラベル付きグラフで表現 • 原子＝ラベル付き頂点座標を付与すると立体構造表現 • 結合＝（多重）辺 /
ラベル付き辺 SMILESによる文字列表現 Simplified molecular input line entry system • グラフを文字列表現したもの • 枝分かれは括弧で表現 • 環は開いて数字で対応付け Oc1ccc(NC(=O)C)cc1 Weininger, David. "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules." Journal of chemical information and computer sciences28.1 (1988): 31-36. 可変長ベクトルグラフ

分子の表現方法には利点も欠点もあり，使い分けが必要 37 フィンガープリント/記述子グラフ SMILES 概要固定長ベクトル Oc1ccc(NC(=O)C)cc1 利点 •
固定長なので使いやすい • 学習不要 • 小サンプルでも使える • よく使われる抽象化 • 立体情報も付与可能 • 機械学習で使いやすい • 情報量はグラフと同等欠点 • データから学習不能 • 可変長 • NNの工夫が必要 • 可変長 • SMILES列は一意ではない

38 予測モデル

予測モデルは入力形式によって分類できる 39 任意の固定長ベクトルを入力できるNNなど汎用的なモデルフィンガープリント記述子 c1c(O)ccc(NC(=O)C)c1 Recurrent neural networks
(RNNs) Transformers SMILES系列 Graph neural networks (GNNs) Transformers グラフ SE(3)-equivariant GNNs/transformers グラフ w/ 座標

RNNは隠れ状態を用いて可変長データを効率的に取り扱う 40 Recurrent neural networks (RNNs) • 任意の長さの系列を取り扱えるNN 固定長の隠れ状態 𝒉𝑡
∈ ℝ𝐻 𝑡=1 𝑇 に情報を集約する • もっとも単純なRNN For 𝑡 = 1,2, … • 𝒉𝑡 = 𝜎 𝑊ih 𝒙𝑡 + 𝑊hh 𝒉𝑡−1 + 𝒃 • 𝒚𝑡 = 𝜎(𝑊ho 𝒉𝑡 ) • LSTMやGRUなど様々な構造がある 𝒗([sos]) 𝒗(c) 𝒗(1) 𝒗([eos]) 𝑦 ・・・ 𝒉0 𝒉1 𝒉2 Bayesian classification: Jastrzębski, Stanisław, Damian Leśniak, and Wojciech Marian Czarnecki. "Learning to SMILE(S)." International Conference on Learning Representations, Workshop (2016). Above model: Bjerrum, Esben Jannik. "SMILES enumeration as data augmentation for neural network modeling of molecules." arXiv preprint arXiv:1703.07076 (2017). 予測値

Transformerは，入力系列の要素間の相互作用を考慮できる 41 自己注意機構＋FFNを繰り返す Vaswani, A. et al. "Attention is all
you need." Advances in Neural Information Processing Systems (2017). 𝒉1 𝑙−1 𝒉2 𝑙−1 𝒉3 𝑙−1 ⋮ 𝒉𝑁−1 𝑙−1 𝒉𝑁 𝑙−1 ⋮ ⋮ 𝒉1 𝑙 𝒉2 𝑙 𝒉3 𝑙 ⋮ 𝒉𝑁−1 𝑙 𝒉𝑁 𝑙 𝑙th FFN 𝑙th FFN 𝑙th FFN 𝑙th FFN 𝑙th FFN ⋮ 𝑙th 自己注意機構

Transformerは，入力系列の要素間の相互作用を考慮できる 42 自己注意機構 𝑄 = − 𝒉1 ⊤ − ⋮
− 𝒉𝑁 ⊤ − 𝑊𝑄 = − 𝒒1 ⊤ − ⋮ − 𝒒𝑁 ⊤ − ∈ ℝ𝑁×𝐷𝑘 𝐾 = − 𝒉1 ⊤ − ⋮ − 𝒉𝑁 ⊤ − 𝑊𝐾 = − 𝒌1 ⊤ − ⋮ − 𝒌𝑁 ⊤ − ∈ ℝ𝑁×𝐷𝑘 𝑉 = − 𝒉1 ⊤ − ⋮ − 𝒉𝑁 ⊤ − 𝑊𝑉 = − 𝒗1 ⊤ − ⋮ − 𝒗𝑁 ⊤ − ∈ ℝ𝑁×𝐷 𝐴 = − 𝒒1 ⊤ − ⋮ − 𝒒𝑁 ⊤ − | | 𝒌1 ⋯ 𝒌𝑁 | | 𝐷𝑘 Attn 𝐻 = RowSoftmax 𝐴 𝑉 ∈ ℝ𝑁×𝐷 𝐻′ = Attn1 (𝐻) ⋯ Attn𝐾 (𝐻) 𝑊𝑂 ∈ ℝ𝑁×𝐷 Vaswani, A. et al. "Attention is all you need." Advances in Neural Information Processing Systems (2017). 入力長自己注意機構の出力

入力全体に対する特徴量は，モデルの出力をプーリングするか特殊トークンを用いて定義する 43 SMILES Transformer オートエンコーダ風に事前学習後，エンコーダを用いて予測器を構成 ChemBERTa マスク言語モデル風に事前学習後， [cls]トークンに対応する出力を用いて
予測器を構成 Honda, Shion, Shoi Shi, and Hiroki R. Ueda. "SMILES Transformer: Pre-trained molecular fingerprint for low data drug discovery." arXiv preprint arXiv:1911.04738 (2019). Chithrananda, Seyone, Gabriel Grand, and Bharath Ramsundar. "ChemBERTa: large-scale self-supervised pretraining for molecular property prediction." arXiv preprint arXiv:2010.09885 (2020). Transformer c1c(O)ccc(NC(=O)C)c1 𝑦 Encoder-only Transformer [cls]c1c(O)ccc(NC(=O)C)c1 プーリング事前学習 𝑦

グラフニューラルネットはグラフを入力する時に使いやすい 44 Message passing neural networks (MPNNs) 𝒉𝑣 0 =
𝒙𝑣 （各頂点𝑣 ∈ 𝑉の特徴量ベクトル） 𝒎𝑣 (𝑙+1) = ෍ 𝑢∈𝒩(𝑣) 𝑀 𝑙 𝒉𝑣 (𝑙), 𝒉𝑢 𝑙 , 𝑒𝑢𝑣 𝒉𝑣 𝑙+1 = 𝑈 𝑙 𝒉𝑣 𝑙 , 𝒎𝑣 𝑙+1 (𝑙 = 0,1, … , 𝐿 − 1) • 出力: 𝒉𝐺 = 𝑅 𝒉𝑣 𝐿 𝑣∈𝑉 Gilmer, Justin, et al. "Neural message passing for quantum chemistry." International conference on machine learning. PMLR, 2017. u v u' u” 𝑀 𝑙 𝒉𝑣 (𝑙), 𝒉𝑢 𝑙 , 𝑒𝑢𝑣 メッセージ 𝑣の近傍 𝒩(𝑣) 頂点𝑣の隠れベクトル𝒉𝑣 𝑙 𝒉𝑢 𝑙

Transformer を工夫してグラフを扱えるようにする手法もある 45 Graphomer Transformerでグラフを処理したい • 頂点＝トークン • 辺＝？ 1.
空間的エンコーディング • 𝜙 𝑣𝑖 , 𝑣𝑗 ≔ 𝑣𝑖 , 𝑣𝑗 間の最短経路長 • 𝑏𝑙 ∈ ℝ 𝑙=1 𝐿max: パラメタ 𝐴𝑖𝑗 += 𝑏𝜙 𝑣𝑖,𝑣𝑗 例えば𝑏𝑙 が𝑙について減少するならば近い頂点対により注意が集まる 2. 辺特徴量の考慮 • (𝑒1 , … , 𝑒𝐿 ): 𝑣𝑖 , 𝑣𝑗 の最短経路上の辺 • 𝒙𝑒𝑙 ∈ ℝ𝐷𝑒: 辺𝑒𝑙 の特徴量ベクトル • 𝒘𝑙 ∈ ℝ𝐷𝑒 𝑙=1 𝐿max : パラメタ 𝐴𝑖𝑗 += 1 𝐿 ෍ 𝑙=1 𝐿 𝒙𝑒𝑙 ⋅ 𝒘𝑙 3. 中心性エンコーディング • 𝒙𝑣 ∈ ℝ𝐷𝑣: 頂点𝑣の特徴量ベクトル • 𝒛𝑚 ∈ ℝ𝐷𝑣 𝑚=0 𝑀max: パラメタ 𝒉𝑛 0 = 𝒙𝑣𝑛 + 𝒛deg 𝑣𝑛 Ying, Chengxuan, et al. "Do Transformers really perform badly for graph representation?." Advances in neural information processing systems 34 (2021): 28877-28888.

基盤モデルを用いて，より予測性能を高める試みがある 46 基盤モデルのアプローチ • 大規模データで巨大な基盤モデルを事前学習 • 下流タスクのデータで精緻な学習化合物データでの事前学習の手段 •
オートエンコーダ • 言語モデルでの事前学習方法の流用 • マルチタスク学習オートエンコーダ • （変分）オートエンコーダとして学習 • エンコーダ部分を特徴量抽出器とする Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276. Honda, Shion, Shoi Shi, and Hiroki R. Ueda. "SMILES Transformer: Pre-trained molecular fingerprint for low data drug discovery." arXiv preprint arXiv:1911.04738 (2019). エンコーダデコーダ c1c(O)ccc(NC(=O)C)c1 c1c(O)ccc(NC(=O)C)c1

オートエンコーダ • 言語モデルでの事前学習方法の流用 • マルチタスク学習言語モデルでの事前学習方法の流用 • マスク言語モデリングで事前学習 • ラベル付きデータで精緻な学習 Chithrananda, Seyone, Gabriel Grand, and Bharath Ramsundar. "ChemBERTa: large-scale self-supervised pretraining for molecular property prediction." arXiv preprint arXiv:2010.09885(2020). Ahmad, Walid, et al. "Chemberta-2: Towards chemical foundation models." arXiv preprint arXiv:2209.01712 (2022). BERT [cls]c1*(O)c*c*NC(=O)C)c1[eos] [cls] c1c(O)ccc(NC(=O)C)c1[eos]

オートエンコーダ • 言語モデルでの事前学習方法の流用 • マルチタスク学習マルチタスク学習 • ラベル付きデータセットを用いたマルチタスク学習 • ラベル付きデータでより精緻な学習 Beaini, Dominique, et al. "Towards Foundational Models for Molecular Learning on Large-Scale Multi-Task Datasets." The Twelfth International Conference on Learning Representations. Property A: 1.1 Property B: 0.1 Property C: -2.3 Property D: 50.7 Property E: 1

サンプルサイズに応じて予測モデルの学習手法を選ぶ．古典的な手法も試すとよい． 49 サンプルサイズが小さい場合 1. FP・記述子+古典的なML これで全く予測できなかったらデータが良くない可能性もある 2. 基盤モデル+精緻な学習
単体のデータセットではNNの学習が難しいことが多いが，基盤モデルを使うと性能が出ることがあるサンプルサイズが十分大きい場合 1. FP・記述子+古典的なML XGBoostなどの手法の性能が良いことが多い 2. ニューラルネットワークハイパーパラメタ調整をしっかりやると性能が出ることが多い 3. 基盤モデル+精緻な学習（マルチタスク学習だと）負の転移などが起きる or 高々2と同等の性能になることもある

50 生成モデル

分子構造の表現方法に応じて異なる生成モデルが存在する 51 c1c(O)ccc(NC(=O)C)c1 Recurrent neural networks (RNNs) Transformers SMILES系列グラフに対する生成モデル
グラフ拡散モデルグラフ w/ 座標

SMILES表現を用いると，系列モデルで分子構造を生成できる 52 分子グラフ生成を文字列生成に帰着 • 課題: グラフの生成は難しそう特に環の生成が非自明 • 解決法: 系列の生成に帰着
• SMILES系列で表現すれば系列 • データセットに含まれるSMILES 系列を出力できるように学習 • この手法の課題出力系列がSMILESの文法を違反する場合がある c1c(O)ccc(NC(=O)C)c1 𝒗( sos ) c 𝒗(c) 1 𝒗(1) c 𝒗(c) ( ・・・入力系列 𝒗 𝑥𝑡 ∈ ℝ𝐷emb 𝑡=1 𝑇 出力系列 ෝ 𝑦𝑡 ∈ Σ 𝑡=1 𝑇 隠れベクトル 𝒉𝑡 ∈ ℝ𝐻 埋め込みベクトル Softmaxで予測 𝒉0 Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276. Segler, Marwin HS, et al. "Generating focused molecule libraries for drug discovery with recurrent neural networks." ACS central science 4.1 (2018): 120-131.

グラフを追加し辺で結ぶことを繰り返してグラフを生成する 53 Molecule-Level Representation (MoLeR) Fig cited from Maziarz, Krzysztof,
et al. "Learning to Extend Molecular Scaffolds with Structural Motifs."International Conference on Learning Representations 2022. 今のグラフをもとに次に追加するパーツを選ぶ or 終了繰り返し潜在ベクトル𝒛

生成モデルは，用途や使いやすさに応じて手法を選ぶとよい 54 文字列にもとづく生成モデル SMILES, SELFIES, MHG, etc. • Pros •
単純なモデルで動く • 実装が簡単 • Cons • 変な分子構造が生成されることがある • 原子価を無視した構造 • 明らかに不安定な構造 • 拡張が難しいことが多い • 基本骨格の指定グラフを直接生成する生成モデル JT-VAE, GCPN, MoLeR, etc. • Pros • 変な分子構造が生成されにくい • 拡張しやすいことが多い • Cons • モデルが複雑になりがち • 実装が難しい

55 分子構造の最適化

分子構造空間の探索のために生成モデルを用いる 56 分子構造の最適化問題 𝑓⋆: ℳ → ℝ : 評価関数 𝑚⋆
= argmax 𝑚∈ℳ 𝑓⋆ 𝑚 課題 • 分子構造の空間ℳの効率的な探索多様な構造を探索しにくい • 評価関数が不明活性やADMETの性質を正確には計算できない →予測モデルで代用する生成モデルを用いた最適化手法生成モデルを 𝑝(𝑚 ∣ 𝒛) とし，代わりに 𝒛⋆ = max 𝒛∈𝒵 𝔼𝑀∼𝑝 ⋅ 𝒛 [𝑓⋆(𝑀)] を解く．そして 𝑀⋆ ∼ 𝑝(⋅∣ 𝒛⋆) を解の候補とする． Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276. Olivecrona, Marcus, et al. "Molecular de-novo design through deep reinforcement learning." Journal of cheminformatics 9 (2017): 1-14. 探索しやすい空間

分子構造空間ℳとℝ𝐻とを対応付けることで汎用的な最適化手法を使いやすくする 57 ブラックボックス最適化を用いた手法 • 事前準備: 生成モデル 𝑝𝜃 (𝑚 ∣
𝒛) の学習変分オートエンコーダのデコーダとして学習 max 𝜃,𝜙, መ 𝑓 𝔼(𝑀,𝑌)∼𝒟 𝔼𝑍∼𝑞𝜙 ⋅ 𝑀 − log 𝑝𝜃 𝑀 𝑍 + KL 𝑞𝜙 ⋅ 𝑀 ∥ 𝑝𝑍 − 𝜆 ⋅ ℓ(𝑌, መ 𝑓(𝑍)) Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276. ELBO エンコーダ 𝑞𝜙(𝒛 ∣ 𝑚) デコーダ 𝑝𝜃 (𝑚 ∣ 𝒛) c1c(O)ccc(NC(=O)C)c1 c1c(O)ccc(NC(=O)C)c1 𝑦 𝒛 評価関数推定のための目的関数分子構造とその評価関数値の対

ベイズ最適化や粒子群最適化など汎用的な最適化手法を用いる 58 ブラックボックス最適化を用いた手法 • 任意のブラックボックス最適化で評価関数値を最大にする潜在表現 𝒛⋆ ∈ ℝ𝐻 を得る 𝒛⋆
= argmax 𝒛∈ℝ𝐻 መ 𝑓(𝒛) • 得られた潜在表現をデコーダで分子構造に戻し，それを解とする Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276. デコーダ 𝑦 𝒛⋆ 𝑚⋆

強化学習を適用する際には生成モデルを方策と見なす 59 分子構造の生成をマルコフ決定過程でモデル化 • 生成モデルをそのまま方策 𝜋𝜃 (𝑎 ∣ 𝑠) とみなせることが多い
• 最終状態で評価関数に相当する報酬を得る 𝒗( sos ) 𝑎1 = c 𝒗(c) 𝑎2 = 1 𝒗(1) 𝑎3 = c 𝒗(c) 𝑎4 ・・・ 𝒉0 𝑠4 = ( sos , c, 1, c) 𝑠1 = ([sos]) 𝑎𝑇 = [eos] 𝒗(1) 𝑟𝑇 𝑠𝑇 , 𝑎𝑇 = መ 𝑓(𝑚) 完成した分子の評価値（推定値） Olivecrona, Marcus, et al. "Molecular de-novo design through deep reinforcement learning." Journal of cheminformatics 9 (2017): 1-14.

汎用的な強化学習アルゴリズムを用いて分子構造最適化できる 60 任意の強化学習アルゴリズムで最適方策を求めればよい • 期待累積報酬が最大になるように方策のパラメタ𝜃を決める 𝜃⋆ = argmax 𝜃∈Θ 𝐽(𝜃)
𝐽 𝜃 = 𝔼𝜋𝜃 ෍ 𝑡=1 𝑇 𝑟 𝑆𝑡 , 𝐴𝑡 = 𝔼𝑀∼𝑝𝜃 ⋅ መ 𝑓 𝑀 • 生成モデル𝑝𝜃⋆(𝑚)から生成した分子構造を解とする 𝑀⋆ ∼ 𝑝𝜃⋆

最適化手法は，用途に合わせて選べばよい．評価関数を予測モデルにする場合は適用範囲に気をつける． 61 BB最適化 vs. 強化学習（RL） • 最適化能力: RL >
BB 本来の問題をより直接的に解いている • 分子の薬っぽさの制御能力: RL < BB? • 生成モデル 𝑝(𝑚 ∣ 𝒛) は薬っぽい分子構造を生成するように学習 • BBでは生成モデルのパラメタを固定 • RLでは生成モデルのパラメタを更新制約をかけて薬っぽさの制御する場合もある評価関数を予測モデルで代用する功罪 Pros: • 汎用的なので幅広い対象に対してとりあえずの解を出せる Cons: • 適用範囲外の分子が最適解になりがち不確かさが高い領域では「まぐれ当たり」する • そもそも手法の優劣も評価しづらい Olivecrona, Marcus, et al. "Molecular de-novo design through deep reinforcement learning." Journal of cheminformatics 9 (2017): 1-14. You, Jiaxuan, et al. "Graph convolutional policy network for goal-directed molecular graph generation." Advances in neural information processing systems 31 (2018). Kajino, Hiroshi, Kohei Miyaguchi, and Takayuki Osogami. "Biases in evaluation of molecular optimization methods and bias reduction strategies." International Conference on Machine Learning. PMLR, 2023.

62 AI創薬の課題と今後の方向性

創薬AIは創薬のための技術なので実業務とのすり合わせが必要 63 これまでのAI創薬研究の課題創薬の実業務との関連性が薄い • 分子構造最適化の使いどころがない自称最適な奇天烈な構造が出てきても合成できない/する気にならない • ベンチマークが実務に即していない
• 罰則付きlogP最大化手法の検証が弱い • 罰則付きlogP最大化なら SMILES-LSTM + RL で十分 • SMILES-VAE + BO もわりと動くよくベンチマークで性能が一番下のものとして報告されるが… AI創薬研究に参入するために必要なこと創薬のドメイン知識がある人と組む • 需要のある問題設定に取り組める • 適切な仮定がわかる • 意味のあるベンチマーク • 出てきた結果の解釈ができる • 実データを使える？ • 応用に至る壁が見えてくる過去の手法も検証する • In silico 創薬のツール含め，実は普通に使える手法もある • 非DNN手法も試す (未だに非DNN vs. DNN論争がある)

より実務に近い問題設定を取り扱う研究も多い 64 基本骨格制約つき最適化 • リード最適化では基本骨格は固定し装飾を変えることが多い • 基本骨格から生成をはじめるモデル合成可能性を考慮した最適化 •
生成した化合物は，良さそうであれば合成して試験したい →合成経路も知りたい • 化学反応に基づく生成モデルを用いる特許の回避 • 薬として売り出すには既存の物質特許を回避したい • 特許を取られているかどうかを報酬に追加 Human-in-the-loop • ADMETのどの制約を重視するのかは創薬化学者次第なところがある • 創薬化学者からのフィードバックを活用する Lim, Jaechang, et al. "Scaffold-based molecular design with a graph generative model." Chemical science 11.4 (2020): 1153-1164. Maziarz, Krzysztof, et al. "Learning to Extend Molecular Scaffolds with Structural Motifs." International Conference on Learning Representations 2022. Gottipati, Sai Krishna, et al. "Learning to navigate the synthetically accessible chemical space using reinforcement learning." International conference on machine learning. PMLR, 2020. Shimizu, Yugo, et al. "AI-driven molecular generation of not-patented pharmaceutical compounds using world open patent data." Journal of Cheminformatics 15.1 (2023): 120. Sundin, Iiris, et al. "Human-in-the-loop assisted de novo molecular design." Journal of Cheminformatics 14.1 (2022): 86.

まとめ 65 創薬のプロセスの全体像を紹介した • 投資額の増大・成功確率の低下 • AI創薬の多くは研究段階を対象とする • 全体を考えると開発段階や臨床試験も重要である
In silico 創薬の概要を紹介した • SBDD=標的の立体構造を使う • LBDD= 〃使わない • QSARのように機械学習技術を使う領域も多い • ドメイン知識が反映された手法が多い機械学習の創薬応用を紹介した • 分子構造の表現方法 • 予測モデル • 生成モデル • 分子構造最適化創薬AI研究の課題と展望を紹介した • よりドメイン知識を取り入れる • 実データ，実タスクがより重要になる

創薬における機械学習技術について

創薬における機械学習技術について

More Decks by Hiroshi Kajino

Other Decks in Science

Featured

Transcript