Upgrade to Pro — share decks privately, control downloads, hide ads and more …

All-in-One Bioinformatics Platform Realized wit...

All-in-One Bioinformatics Platform Realized with Snowflake ~ From In Silico Drug Discovery, Disease Variant Analysis, to Single-Cell RNA-seq

Presented at Bio"Pack"athon 2024 #7 on July 10, 2024, at 17:00
https://biopackathon.connpass.com/event/320217/

## Presented Analyses
- Single-cell RNA-seq with Snowpark Container Service
- Storage and annotation of VCF data for variant analysis
- In silico drug discovery using Snowflake Notebooks and Streamlit

## Results
- Successfully hosted Rstudio on SPCS to analyze single-cell RNA-seq, loading Seurat Data into SeuratObject and drawing UMAP plots.
- Demonstrated the capability of hosting shiny applications on SPCS, enabling the use of many life sciences tools on Snowflake.
- Showed the integration of open data from DRAGEN 1000-Genomes and ClinVar from the Registry of Open Data on AWS using Snowflake external stages.
- Screened the top 10 compounds similar to the neuraminidase inhibitor "Laninamivir" on Snowflake Notebooks and visualized molecular structures with Streamlit.
- Highlighted the ease of setting up environments for multi-omics analysis.

## Benefits of Variant Analysis with VCF Files on Snowflake
- Managing Filtering Workflows: Unlike traditional methods which generate numerous intermediate files (e.g., CSV or VCF), Snowflake stores everything in tables.
- Easy Data Filtering with SQL: Compared to tools like Snpsift, Snowflake allows for filtering conditions to be easily saved in SQL.
- Storage Compression Benefits: Snowflake supports unstructured data, including VCF files, and automatically compresses storage upon ingestion.

## Benefits of In Silico Drug Discovery on Snowflake
- Access to Snowflake’s Machine Learning Frameworks: Use frameworks like Snowpark ML without the need for data transfer, complex infrastructure setup, or local environment setup, enabling rapid and efficient machine learning execution.
- Efficient Storage of Large Compound Datasets: Centralized management of large compound and biological datasets needed for the drug discovery process, facilitating quick screening of promising compounds.
- End-to-End High-Computing Resource Analysis: SPCS enables end-to-end analysis for high-computing resource-demanding tasks like molecular dynamics (MD) or docking simulations.

## Data Clean Room
- On-demand data anonymization
- Sharing of regulated patient data with pharmaceutical companies (increasing the number of patient samples)
- Enriching data to analyze and identify patterns in patient outcomes across clinical trials

## Handling Life Sciences Data with Cortex LLM
- Ability to handle unstructured data such as medical data PDFs and build LLM models that understand biomedical terms
- The abundance of publicly available data in the bio domain can be used to construct LLMs
- Use cases include models that query relevant patient datasets

----------------------------------------------------------------------------------

2024年7月10日 17:00 Bio"Pack"athon 2024 #7 にて登壇した資料になります。
https://biopackathon.connpass.com/event/320217/

■紹介した解析
・Snowpark Container ServiceでシングルセルRNA-seq
・VCFデータの格納とアノテーション情報をつけてバリアント解析
・Snowflake NotebooksとStreamlitを用いたIn silico創薬

■結果
・SPCS上にRstudioをホストしてシングルセルRNA-seq解析することでSeurat DataからSeuratObjectをロードして解析をしてUMAPプロットの描画に成功。
・shiny-applicationがSPCSに問題なくホスト可能なため、多くの生命科学系ツールのsnowflakeでの利用が可能
・snowflakeの外部ステージを利用してRegistry of Open Data on AWSのDRAGEN 1000-GenomesやClinVarのオープンデータを取り込むことができる。
・Snowflake Notebooks上でノイラミニダーゼ阻害薬「ラニナミビル」に類似した化合物Top10をスクリーニングし、Streamlitで分子構造を可視化した
・マルチオミクスを行う環境が簡単にセットアップ可能

■SnowflakeでVCFファイルのバリアント解析をするメリット
・フィルタリングワークフローの管理
→バリアント解析はcsvやvcfなど大量な中間ファイルができがち。Snowflakeなら全てテーブルで保存できる。

・SQLによる簡便なデータフィルタリング
→Snpsiftなどのツールと比較するとフィルタリング条件がSQLで保存しやすい。

・Snowflake上でのストレージ圧縮メリットを受けれる
→SnowflakeはVCFを含む非構造化データをサポートしている。Snowflakeに取り込むだけでストレージ容量を圧縮してくれる。

■SnowflakeでIn silico創薬をするメリット
・Snowflakeが用意する機械学習フレームワークを利用可能
→Snowpark MLなどデータの移動や複雑なインフラの設定、ローカルでの環境構築が不要で迅速かつ効率的な機械学習の実行が可能

・大量の化合物データセットを効率よく格納
→創薬プロセスにおいて必要となる大量の化合物データや生物学的データを一元管理が可能。めぼしい化合物を類縁体スクリーニングに素早くかける事ができる

・ハイコンピューティングリソースが要求される解析まで一貫して解析が可能
→SPCSを利用すれば、MDやドッキングシミュレーションといったハイコンピューティングリソースが要求される解析までエンドツーエンドで解析することが可能

■Data Clean Room
・オンデマンドでデータを匿名化
・規制対象の患者データを製薬会社と共有できる(患者サンプル数の拡大)
・データをエンリッチメントして分析し、臨床試験全体で患者アウトカムのパターンを特定

■Cortex LLMによるライフサイエンスデータの取り扱い
・医療データPDFなど非構造化データを扱えることや生物医学用語を理解するLLMモデルの構築が可能
・バイオ系は公開データがたくさんあり、それを使ってLLMを構築することができる
・ユースケースとして関連する患者データセットを照会するモデルなど

Tatsuya Koreeda

July 10, 2024
Tweet

More Decks by Tatsuya Koreeda

Other Decks in Science

Transcript

  1. Snowflakeで実現する All-in-One Bioinformatics Platform 2024年7月10日 17:00 Bio"Pack"athon 2024 #7 Tatsuya

    Koreeda インシリコ創薬、疾患バリアント解析、シングルセル RNA-seqまで
  2. 5 多岐に渡るバイオデータの種類 reference image: https://www.semanticscholar.org/paper/The-European-Bioinformatics-Institute%E2%80%99s-data-2014-Brooksbank-Bergman/1 c11992577c22af41ef1e861656d146fdd5d0f53 DNA, RNA, エピゲノム ,

    タンパク質、タ ンパク質や化合物の構造情報、相互作 用情報などバイオデータの種類は多く 容量が大きくなる バイオデータを管理するための、 ス トレージコストと管理コストの増大が 課題
  3. 6 学術利用に使われる主なコンピュートリソース種類 ラボPC(オンプレミス) メリット データが内部に保持されるため、 機密性の高いデータを扱うのに最 適ハードウェアとソフトウェアを 自由にカスタマイズできる デメリット ハードウェア、ソフトウェア、施設の構築など

    高額な初期投資が必要。 アップグレードや修理など維持管理が困難で、専任のITスタッフが必 要。 スパコン メリット 高い計算能力を提供し、 大規模で複雑なシミュレーションやデータ解 析に最適。特定の計算タスクに特化したシステム設計が可能で、 性 能の最適化が容易。 デメリット 利用には予約が必要であり、使用時間に制約がある場合があり。 The image of server and computer is from TogoTV (© 2016 DBCLS TogoTV, CC-BY-4.0https://creativecommons.org/licenses/by/4.0/deed.ja
  4. 8 クラウドで解析するメリット スケーラビリティと柔軟性 クラウドサービスは、必要に応じて計算リソー スを動的に拡張または縮小することができま す。 コスト効率 使用したリソースに対してのみ料金が発生す る従量課金制。また、ハードウェアの保守や更 新のコストもクラウドプロバイダーに含まれて

    いる。 自動化と効率化 さまざまな自動化ツールやサービスを提供し ており、データ処理パイプラインの自動化や ワークフローの効率化が可能。 データの共有とコラボレーション データや解析結果を簡単に共有することがで き、複数の研究者やチームが同時にアクセス して共同作業を行うことが可能。 セキュリティとコンプライアンス データの暗号化、アクセス制御、監査ログな ど、機密性の高いバイオデータを安全に管理 できる。 高性能コンピューティング 高性能コンピューティング( HPC)クラスターを 迅速に構築して、大規模なシミュレーションや データ解析が可能。
  5. 11 Snowflakeの主な特徴① 伸縮性のある高性能エンジン • 複雑なデータパイプライン、大規模アナリ ティクス、特徴量エンジニアリング、アプリ ケーションを自動でスケール • 即時かつコスト効率の良いスケーリング で、性能に影響を与えることがない

    • SQLを始め、Python、Java、Scala用 Snowpark開発者フレームワークが用意さ れている reference image: https://www.snowflake.com/ja/data-cloud/platform/?utm_cta=websi te-homepage-platform-card-elastic-compute
  6. 12 Snowflakeの主な特徴② 最適化されたストレージ • PDFなどの非構造化データも一元的に管 理可能 • 最適化された圧縮、自動マイクロパーティ ション、ACIDコンプライアンス、Time Travelなどを活用

    • オープンテーブル形式(Iceberg Tableな ど)が利用可能 reference image: https://www.snowflake.com/ja/data-cloud/platform/?utm_cta=website-ho mepage-platform-card-elastic-compute
  7. 16 Snowpark Container Service(SPCS) • Snowflake エコシステム内でコンテナ化さ れたフルマネージドのコンテナ製品 • Docker

    など)を使用して、アプリケーショ ン イメージを Snowflake に簡単にアップ ロードできる • 外部にデータを移すことなく、 Snowflake 上で直接アプリを動かせる https://docs.snowflake.com/en/developer-guide/snowpark-container-services/overview Snowpark Container Serviceの特徴
  8. 17 Snowpark Container Serviceの使い方 1. COMPUTE POOLを作成し INSTANCE_FAMILY で CPUやGPUスペック

    を定義する 2. Specを定義し、リソースの詳細な仕様を記述 する 3. Service作成する コードの流れ
  9. 18 SPCS上にRstudioをホストしてシングルセル RNA-seq解析 1. ローカルで Rstudio ServerのDocker imageを作成し、 snowflakeのイメージレ ポジトリにプッシュ

    2. プッシュされたイメージを下に snowpark container service上でサービスを作成。 エンドポイントが払い出される。 3. 指定エンドポイントの Rstudio Server環 境を使って Seuratによる解析を実施 解析手順
  10. 25 Snowpark Container Serviceで用意できるスペック Mapping 
 vCPU
 Memory (GiB) 


    Storage (GiB) 
 GPU
 GPU Memory (GiB) 
 CPU / XS~L 
 2~32
 8~128 
 250
 該当なし
 該当なし
 ハイメモリCPU / S,M,L 
 8~128 
 64~1024 
 250
 該当なし
 該当なし
 GPU / S 
 8
 32
 250
 1 NVIDIA A10G 
 24
 GPU / M 
 48
 192
 250
 4 NVIDIA A10G 
 96
 GPU / L 
 192
 2048
 250
 8 NVIDIA H100 
 640
 スペック CPUメモリは1024GiBまで拡張可能。 NVIDIA GPU使用可能。
  11. 27 Tableと外部ステージ • Tableはデータを構造化する基本単位。 snowflakeのtableはマイクロパーティ ション、クラスタリングを自動で行ってくれ る • AWS S3などを外部のストレージとして統

    合することが可能 • SQLでのデータスクリーニングやアノテー ションが可能 https://docs.snowflake.com/ja/user-guide/data-load-s3 Tableと外部ステージの特徴
  12. 28 Registry of Open Data on AWS https://registry.opendata.aws/ • AWS(Amazon

    Web Services)が提供 する研究者、データサイエンティスト向け の公開データセットのカタログ • S3バケットにデータが格納されている • オープンデータの利用促進とコミュニティ の形成を目的としている Registry of Open Dataの特徴
  13. 29 公共データの外部ステージ登録と VCFデータのアノテーション付け 1. Open Data RegistryのDRAGEN 1000-Genomesプロジェクトの8人 分ゲノムデータが入った S3を外部

    ステージ登録する 2. snowflakeのテーブルに取り込む 3. Panelの情報が入ったS3を外部ス テージ登録し、アノテーションを実行 する 解析の流れ
  14. 36 Streamlit in Snowflake • Pythonのオープンソースライブラリで、 データをインタラクティブな Webアプリケー ションとして素早く簡単に可視化可能 •

    HTML、CSS、JavascriptなどのWebアプ リケーション開発に必要な知識がなくても 構築可能 • Snowflakeのデータクラウド上で Streamlitアプリを構築、展開、共有できる Streamlit in Snowflakeの特徴
  15. 37 Snowflake Notebooks • Python および SQL 用のインタラクティブ なセルベースのプログラミング環境を提供 する

    Snowsight の開発インターフェイス • Streamlit などの他のライブラリを使用し て、データをインタラクティブに視覚化可能 • Snowflake にすでに存在するデータを探 索したり、ローカル ファイル、外部クラウド ストレージ などから Snowflake にアップ ロード可能 Snowflake Notebooksの特徴
  16. 39 In silico創薬「化合物類似度の評価」 1. ライブラリ(RDkit)のインポート 2. 化合物の分子構造をSMILES表記から 生成 Cc1ccccc1:トルエン Clc1ccccc1:トリクロロベンゼン

    3. 生成した分子構造の画像を描画し、 Streamlitを使って表示 4. タニモト係数で類似度の評価 ここでの類似度結果は 「0.5384615384615384」 処理の流れ
  17. 44 マルチオミクスを行う環境が簡単にセットアップ可能 • 解析で用いる多種のデータが一元 管理可能 • Snowflake NotebooksでSQLや Pythonを用いていつでも呼び出 し、組み合わせてマルチオミクス解

    析ができる • 公共データベースのデータを Snowflake内部に入れずとも外部 ステージとして管理できる 化合物などの ケモインフォマティクス データ VCFファイルなどの ゲノミクスデータ 公共データベース アノテーション用のステージ トランスクリプトーム解析 SPCSのイメージ管理 マルチオミクスにおけるメリット
  18. 45 簡単にトライアル環境を作成できます • 30日間の無料トライアル • 400ドルの無料枠で snowflakeを存分にトライ可 • 画像のフォームに入力するだ けで簡単に開始可能

    https://signup.snowflake.com/?_l=ja&utm_source=google&utm_medium=paidsearch&utm_campaign=ap-jp-jp-brand-trial-exact&utm_content=go-rsa-evg-ss-free-trial&utm_term=c-g-snowflake%E3%83%88%E3%83%A9%E3 %82%A4%E3%82%A2%E3%83%AB-e&_bt=610748255507&_bk=snowflake%E3%83%88%E3%83%A9%E3%82%A4%E3%82%A2%E3%83%AB&_bm=e&_bn=g&_bg=142614214047&gclsrc=aw.ds&gad_source=1&gclid= CjwKCAjw4f6zBhBVEiwATEHFVkAg8jsfD0OH2W26UNyKTUFlMrCI8WhFO2Kcq4qgYhDGgEhwIRl5rhoC7N8QAvD_BwE
  19. 47 Data Clean Room reference image: https://www.snowflake.com/blog/data-privacy-life-sciences-clean-rooms/?lang=ja&wtime&utm_cta=data-science-workload-using- snowflake-for-ml-interference?wtime • オンデマンドでデータを匿名化

    • 規制対象の患者データを製薬会社と共 有できる(患者サンプル数の拡大 ) • データをエンリッチメントして分析し、臨 床試験全体で患者アウトカムのパターン を特定 Data Clean Roomの特徴 複数の組織がデータを共有し、協力して分析やインサイトの抽出を行うためのプライバシー保護環境
  20. 48 Cortex LLMによるライフサイエンスデータの取り扱い reference image: https://medium.com/snowflake/clinical-trial-assistant-a-rag-based-approach-on-snowflake-leveraging-cortex-capabilities-part-7d0 e548a1156 Snowflakeが管理する大規模言語モデルサービスで様々なモデルが利用可能 • 医療データPDFなど非構造化

    データを扱えることや生物医学用 語を理解するLLMモデルの構築 が可能 • バイオ系は公開データがたくさん あり、それを使って LLMを構築す ることができる • ユースケースとして 関連する患者 データセットを照会するモデル な ど
  21. 52 マルチオミクスを行う環境が簡単にセットアップ可能 • 解析で用いる多種のデータが一元 管理可能 • Snowflake NotebooksでSQLや Pythonを用いていつでも呼び出 し、組み合わせてマルチオミクス解

    析ができる • 公共データベースのデータを Snowflake内部に入れずとも外部 ステージとして管理できる Chemical informatics data such as compounds Genomics data such as VCF files Public database annotation stages Transcriptome analysis and SPCS image management マルチオミクスにおけるメリット