Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Elix, 出版記念ウェビナー, ざっくりわかる書籍のダイジェスト

Elix
March 23, 2023

Elix, 出版記念ウェビナー, ざっくりわかる書籍のダイジェスト

Elix

March 23, 2023
Tweet

More Decks by Elix

Other Decks in Research

Transcript

  1. Copyright © Elix, Inc. All rights reserved. 書籍の内容について、有機化合物を扱ったものを中⼼にダイジェスト 形式でお話しします。 •

    具体的には、五つのケーススタディについて概説します。 • 詳細については、書籍をご覧いただければ幸いです。 今⽇話すこと 2
  2. Copyright © Elix, Inc. All rights reserved. • ケモインフォマティクス・マテリアルズインフォマティクスに関する和書が増えてきた ◦

    『詳解 マテリアルズインフォマティクス』では、化学分野における深層学習⼿法について解説 • 深層学習はかなり柔軟にモデル化できる⼀⽅、モデル設計時に考えるべきことも多い ➔ データの処理・モデルの構築⽅法などで困ることも多いはず ◦ 参考になりそうな書籍は、(残念ながら) 今のところあまり多くはない 執筆の背景 3
  3. Copyright © Elix, Inc. All rights reserved. 深層学習を化学分野で利⽤するためのガイドとして、 九つのケーススタディをとおして深層学習活⽤のポイントを解説 •

    ここ数年で⾏われた⽐較的新しい研究で、なるべく具体的な対象を 扱っているもの (ベンチマークデータセットでの評価で終わっていない ようなもの) を中⼼にケーススタディを選択 • 『詳解 マテリアルズインフォマティクス』の5, 6章 (応⽤例) の内容を、 操作⼿順・⼿法についてより詳しく説明したような感じ ◦ 論⽂の他にも著者実装なども参考にしながら、できる限りクリアに 解説することを試みた • 脚注にも、関連情報や考え⽅のポイントなどを記載 本書の特⻑ 4
  4. Copyright © Elix, Inc. All rights reserved. モデル構築に利⽤する化学データの形式やデータベースについて解説 • 基本的には『詳解

    マテリアルズインフォマティクス』の1章を再掲 ◦ ただし、データベースの情報など、⼀部修正した箇所もある • 有機化合物のデータ形式: ◦ SMILES⽂字列: ⼀定の⽂法に従う⽂字列で分⼦構造を表現 ◦ MOLファイル: 分⼦に含まれる各原⼦の座標が記録されている • 有機化合物のデータベース: ◦ PubChem ◦ ChEMBL ◦ ZINC ◦ GDB 序章 深層学習に必要なデータの準備 5 MOLファイル SMILES⽂字列 C[C@@H](C(=O)O)N
  5. Copyright © Elix, Inc. All rights reserved. 予測モデル: 与えられたサンプルに対して、ラベル (物性・活性値や所属グループ)

    を予測するモデル 有機化合物に対する予測モデルを扱った三つのケーススタディをとおして、 データの処理・ネットワーク構造の設計・訓練⽅法の設定などについて解説 扱った主な内容 • マルチタスク学習 (1.1節) • 物理情報付きニューラルネットワーク (1.2節) • 予測の不確実性を考慮したネットワーク (1.3節) 『詳解 マテリアルズインフォマティクス』であまり触れなかった⼿法を中⼼に扱った 1章 有機化合物に対する予測モデル 6
  6. Copyright © Elix, Inc. All rights reserved. • マルチタスク学習: ⼀つのネットワークで複数の予測対象を

    予測できるように、ネットワークを訓練する⽅法 ◦ 複数の予測対象を同⼀のネットワークで予測することで、 予測対象に対する知識を共有できる ▪ 転移学習の⼀種とみなせる ▪ 「物性値とその計算値を予測する」など、予測対象に関連性 があるとうまく予測しやすい ◦ サンプルに対する複数の予測対象を同時に予測したい場合に便利 • ポリマーに対するモノマーと、ポリマーの物性の計算値・実測値の データセットを利⽤して、全結合層からなるモデルを構築 ◦ モノマーの特徴だけでなく、ポリマーとしての構造の特徴を 捉えられるような記述⼦ベクトルを設計して⼊⼒ 1.1 マルチタスク学習を利⽤したポリマーの物性予測 7
  7. Copyright © Elix, Inc. All rights reserved. • 物理情報付きNN: 対象が満たすべき物理法則に関する知識を

    考慮したネットワーク ◦ ネットワーク構造や損失関数に物理法則に関する知識を 組み込んで訓練する ◦ ネットワークから得られる特徴ベクトルも、物理法則に対して 整合性が取れるようなものになると期待される ◦ 従う物理法則が同じなら、外挿サンプルでもうまく予測 しやすいはず ➔ 転移学習に利⽤しやすいと考えられる • 化学においては、量⼦化学的な特徴量が物性に寄与することが多い ➔ これらに関連する物理法則を有効活⽤できるとよい 1.2 物理情報付きNNの転移学習を利⽤したポリマーの物性予測 8
  8. Copyright © Elix, Inc. All rights reserved. • Hohenberg‒Kohnの第1定理に基づいた物理的な制約を課した ネットワークを利⽤

    ◦ ネットワークの内部で、サンプルの分⼦軌道に対応する 特徴ベクトルを作成 ➔ この特徴ベクトルが実際の分⼦軌道を模倣できるように、 HK定理に基づいた制約を課す • QM9データセット (約13万件のサンプル) での事前訓練後、 特徴抽出部分のパラメータを凍結して転移 ➔ ポリマーの物性 (原⼦化エネルギー・バンドギャップなど) を 予測 1.2 物理情報付きNNの転移学習を利⽤したポリマーの物性予測 9
  9. Copyright © Elix, Inc. All rights reserved. • PFAS: ⼀つ以上の

    ‒CF3 /‒CF2 ‒ 基を持つ有機化合物 ◦ フォトレジスト・難燃剤など、多岐にわたって利⽤される ◦ 毒性も懸念されている • 毒性 (LD50 ) の予測モデルに望まれること ◦ ⾼い予測性能を持つ ◦ 出⼒される予測結果を信頼するか否かを適切に判断できる • こうしたモデルを作成するのは難しい: ◦ 毒性発現のメカニズムは複雑 ◦ PFASに対する毒性データの量が⼗分でない ◦ データに測定誤差が含まれうる 1.3 予測の不確実性を考慮したPFASの毒性予測 10
  10. Copyright © Elix, Inc. All rights reserved. • 予測が不確実と判断されたものについては「わかりません」と⾔える モデル

    (SelectiveNet) を利⽤ ➔ 出⼒される予測値についてはある程度信頼できるものになる ◦ 予測を棄権したPFAS化合物に対してのみ別途実験するようにする ➔ 必要な実験回数を減らせる • ⼀般の毒性データセットでSelectiveNetを訓練した結果を転移し、 PFAS類似化合物の毒性データを利⽤してネットワークの⼀部を 再訓練 ➔ PFAS関連データが少ない問題に対応 1.3 予測の不確実性を考慮したPFASの毒性予測 11
  11. Copyright © Elix, Inc. All rights reserved. 無機材料に対する予測モデルを扱った三つのケーススタディをとおして、 データの処理・ネットワーク構造の設計・訓練⽅法の設定などについて解説 扱った主な内容

    • 3次元結晶構造からの合成可能性予測 (2.1節) • 材料の局所構造からの安定性予測 (2.2節) • 合⾦のガラス形成能予測のためのマルチタスク学習 (2.3節) この発表では内容紹介を割愛するが、有機化合物に対する予測などに有⽤なテクニックも多いので、 ぜひ⽬を通していただきたい (特に、データの前処理・ネットワーク構造の設計⽅法は、参考になる点があると思われる) 2章 無機材料に対する予測モデル 12
  12. Copyright © Elix, Inc. All rights reserved. ⽣成モデル: データの⽣成過程を表現したモデル ⽣成モデルを利⽤した三つのケーススタディをとおして、医薬品の設計や材料の探索に⽣成モデルが

    どのように活⽤されているかを解説 扱った主な内容 • フラグメントのSMILES⽂字列を⽣成するSeq2Seqモデル (3.1節) • 敵対的オートエンコーダの半教師あり学習 (3.2節) • 変分オートエンコーダによる組成の合成可能性評価 (3.3節) この発表では、3.3節の紹介は省略する 3章 ⽣成モデルを活⽤した材料・医薬品の設計 13
  13. Copyright © Elix, Inc. All rights reserved. • リードジェネレーション: 標的分⼦に対するヒット化合物から

    新薬になりそうなリード化合物へと構造を修正 ◦ ヒット化合物の分⼦構造をある程度保持しつつ、化合物の 機能性を⾼めるように構造修正 • DDR1に対するヒット化合物から、構造⽣成器を⽤いて リードジェネレーション ◦ スキャフォールドのSMILES⽂字列を⼊⼒すると、⼊⼒に 結合する側鎖が⽣成されるようなSeq2Seqモデル ◦ DDR・FGFR阻害剤の分⼦構造から、スキャフォールドと 側鎖の組を⽣成したうえで訓練 ▪ スキャフォールド・側鎖として妥当になるように 適当な条件が課されている 3.1 フラグメント構造⽣成器を利⽤したリードジェネレーション 14
  14. Copyright © Elix, Inc. All rights reserved. • 興味のある化合物データは少量しか⼿に⼊らないことが多い ◦

    実験に時間・コストがかかる ◦ 多数のサンプルに対するシミュレーションもなかなか⼤変 ◦ ⽂献調査で集められるデータにも限りがある • ⼩規模なデータセットでの訓練では過剰適合しやすくなり、 期待する性能が得られないことがある ➔ (ラベルなしの) ⼀般の⼤規模な分⼦構造データセットを 活⽤できると良い • 半教師あり学習: ラベルありデータセットとラベルなし データセットを同時に利⽤して訓練する⽅法 3.2 半教師あり学習を利⽤した分⼦構造⽣成 15
  15. Copyright © Elix, Inc. All rights reserved. • 敵対的オートエンコーダ (AAE)

    を利⽤した、ADRA2A阻害剤の SMILES⽂字列の⽣成 ◦ 敵対的⽣成ネットワーク (GAN) とオートエンコーダを 組み合わせたモデル ◦ 分⼦構造を潜在変数という多次元ベクトルで表現 ➔ 潜在変数から分⼦構造を⽣成できるようになっている ◦ 潜在変数が従う確率分布を⾃由に設定できる ➔ ラベルありデータセットとラベルなしデータセットの分布が 重なるように設定し、ラベルありデータセットの存在する 領域からサンプリング 3.2 半教師あり学習を利⽤した分⼦構造⽣成 16
  16. Copyright © Elix, Inc. All rights reserved. • 『事例でわかる マテリアルズインフォマティクス』は、深層学習を化学分野で利⽤するためのガイド

    として、九つのケーススタディをとおして深層学習活⽤のポイントを解説した本 • この発表では、有機化合物に関する五つのケーススタディについて、内容を概説した ◦ データの処理やネットワーク構造の設計のアイディアは、扱うデータが有機・無機のいずれでも 活⽤できるものが多い 『事例でわかる マテリアルズインフォマティクス』に記した内容が、何らかの形で皆さんの役に⽴てますと 幸いです。 まとめ 17