言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models

さくらインターネット研究所テックトーク2025春 2025年3月13日言語モデルによるAI創薬の進展さくらインターネット株式会社鶴田博文

2 自己紹介鶴田博文（@tsurubee3）さくらインターネット研究所研究員専門領域 #AI・機械学習 – 深層学習/LLM/Data-centric
AI #AI for Science – マテリアルズ・インフォマティクス/AI創薬

3 COGNANOとの共同研究成果がNeurIPS 2024に採択 https://www.sakura.ad.jp/corporate/information/newsreleases/2024/09/30/1968217266/ https://arxiv.org/abs/2405.18749

4 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析
5. ベンチマーク実験研究の概要図

6 • 抗体は、体内に侵入したウイルスや細菌などの有害な異物 (これを「抗原」という)を排除するために、免疫システムによって生成されるタンパク質である。抗体とは • この抗体を利用して病気の予防や治療を行う薬が抗体医薬であり、抗体は現在、ヒトの病気を治療するための重要な創薬モダリティの一つである。 •
タンパク質は1文字のアルファベットで表される20種類のアミノ酸が鎖状に並んだアミノ酸配列で表現できる。 [Kovaltsuk+, 2017] How B-Cell Receptor Repertoire Sequencing Can Be Enriched with Structural Antibody Data 出典：[Kovaltsuk+, 2017]のFigure 1

8 抗体と自然言語出典：[Ofer+, 2021]のFigure 1 [Ofer +, 2021] The language
of proteins: NLP, machine learning & protein sequences • 抗体(タンパク質)は、20種類のアミノ酸という「単語」を並べた「文章」である。 • 単語の並び順によって文章の意味が決定されるように、アミノ酸配列の並び順によってタンパク質の立体構造や生物学的な機能が決定される。

9 タンパク質言語モデル • Metaは、膨大なタンパク質配列データで学習したESM (Evolutionary Scale Modeling)というのタンパク質言語モデルを開発している。 • ESM-2
[Lin+, 2023]は、6.5億のタンパク質配列を用いて学習された最大150億パラメータを持つタンパク質言語モデルであり、タンパク質の構造・機能の予測に応用されている。出典：[Lin+, 2023]のFigure 2 [Lin+, 2023] Evolutionary-scale prediction of atomic-level protein structure with a language model

10 抗体言語モデル自然言語の分野で医療や法律などに特化したドメイン特化型言語モデルの開発が進んでいるのと同様に、タンパク質言語モデルにおいても抗体に特化した抗体言語モデルの開発が進んでいる。代表的な抗体言語モデルの研究 [1] Deciphering antibody affinity maturation
with language models and weakly supervised learning (2021). [2] Deciphering the language of antibodies using self-supervised learning (2022). [3] AbLang: an antibody language model for completing antibody sequences (2022). [4] On pre-training language model for antibody (2023). [5] Rapid discovery of high-affinity antibodies via massively parallel sequencing, ribosome display and affinity screening (2024). [6] Enhancing antibody language models with structural information (2023). [7] Large scale paired antibody language models (2024). [1] [2] [3] [4] [5] [6] [7] [3]

12 アルパカの特殊な抗体 (VHH) • ヒトやマウスなどが持つ抗体は、2本の重鎖と2本の軽鎖で構成されており、重鎖と軽鎖のペアが標的となる抗原に対する機能単位として働く。 • アルパカやリャマなどのラクダ科動物は、重鎖のみからなる抗体を持ち、その可変領域はVHH (またはNanobody)と呼ばれる。このシンプルな構造により、VHHは他の抗体に比べて効率的にアミノ酸配列をデータ化できる。

13 作成した2つのデータセット 1. VHHCorpus-2M 2. AVIDa-SARS-CoV-2 VHH sequence Antigen sequence
Label D R T S W S A … M F V F L V L L … 1 G S R T Y Y A … M P M G S L Q … 0 … … … VHH sequence K P E D T A V … K V D D A A V … … 事前学習 ×5 2,040,988サンプル SARS-CoV-2 変異体 ×2 ラベリングファインチューニング性能評価 77,003サンプル

14 ラベル付きデータセット作成抗体言語モデルの性能評価に利用可能な抗原抗体結合のラベル付きデータセットの作成方法を確立した。

16 アミノ酸配列の多様性ランダムに抽出した抗体配列ペアの配列一致度の分布 5頭のアルパカから生成したVHHCorpus-2Mは、 2頭のアルパカから生成したAVIDa-SARS- CoV-2よりも配列の多様性が高い。

17 SARS-CoV-2特異的抗体の個体差 SARS-CoV-2に結合する抗体配列の2次元表現異なるアルパカは、免疫反応により異なる抗体のクラスタを生成する。アルパカの個体で色分けクラスタ (配列一致度95%)で色分け

19 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning AVIDa-SARS-CoV-2 Fine-tuned Language
Models Evaluation VHHCorpus-2M

20 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning Fine-tuned Language Models
Evaluation ベースラインモデルタンパク質抗体事前学習なし VHHCorpus-2M AVIDa-SARS-CoV-2

21 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning Fine-tuned Language Models
Evaluation VHHCorpus-2M データセット分割片方の個体が生成した抗体を学習し、もう片方の個体が生成した抗体を予測する。 AVIDa-SARS-CoV-2

22 実験結果 • 一般的なタンパク質ではなく、抗体配列で事前学習を行うことは、抗体特有のタスクの性能向上に寄与する。 • AntiBERTa2-CSSPが採用したヒトの抗体構造を用いた追加の事前学習により、抗原抗体結合の予測性能が向上した。抗原抗体結合予測の実験結果

23 まとめ • 抗体は、体内に侵入したウイルスや細菌などの有害な異物を排除するために、免疫システムによって生成されるタンパク質であり、1文字のアルファベットで表される20種類のアミノ酸が鎖状に並んだアミノ酸配列で表現できる。 1. 抗体とは 2. 抗体言語モデル
3. NeurIPS 2024採択論文 • 抗体は、アミノ酸という「単語」が特定の構造的・機能的な規則（文法）に従って並べられた「文章」として捉えられる。 • 近年、抗体配列に特化して学習させた抗体言語モデルの開発が盛んに行われている。 • アルパカが持つ特殊な抗体 (VHH)は、アミノ酸配列の効率的なデータ化に適していることから、これを利用して抗体言語モデルの事前学習用およびファインチューニング・性能評価用のデータセットを作成し、ベンチマーク実験を行った。

言語モデルによるAI創薬の進展 / Advancements in AI-Driven Dru...

言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models

tsurubee

More Decks by tsurubee

Other Decks in Research

Featured

Transcript

さくらインターネット研究所テックトーク2025春 2025年3月13日言語モデルによるAI創薬の進展さくらインターネット株式会社鶴田博文

2 自己紹介鶴田博文（@tsurubee3）さくらインターネット研究所研究員専門領域 #AI・機械学習 – 深層学習/LLM/Data-centric

3 COGNANOとの共同研究成果がNeurIPS 2024に採択 https://www.sakura.ad.jp/corporate/information/newsreleases/2024/09/30/1968217266/ https://arxiv.org/abs/2405.18749

4 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析

5 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析

7 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析

8 抗体と自然言語出典：[Ofer+, 2021]のFigure 1 [Ofer +, 2021] The language

9 タンパク質言語モデル • Metaは、膨大なタンパク質配列データで学習したESM (Evolutionary Scale Modeling)というのタンパク質言語モデルを開発している。 • ESM-2

11 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析

13 作成した2つのデータセット 1. VHHCorpus-2M 2. AVIDa-SARS-CoV-2 VHH sequence Antigen sequence

14 ラベル付きデータセット作成抗体言語モデルの性能評価に利用可能な抗原抗体結合のラベル付きデータセットの作成方法を確立した。

15 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析

16 アミノ酸配列の多様性ランダムに抽出した抗体配列ペアの配列一致度の分布 5頭のアルパカから生成したVHHCorpus-2Mは、 2頭のアルパカから生成したAVIDa-SARS- CoV-2よりも配列の多様性が高い。

17 SARS-CoV-2特異的抗体の個体差 SARS-CoV-2に結合する抗体配列の2次元表現異なるアルパカは、免疫反応により異なる抗体のクラスタを生成する。アルパカの個体で色分けクラスタ (配列一致度95%)で色分け

18 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析

19 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning AVIDa-SARS-CoV-2 Fine-tuned Language

20 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning Fine-tuned Language Models

21 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning Fine-tuned Language Models