All-in-One Bioinformatics Platform Realized with Snowflake ~ From In Silico Drug Discovery, Disease Variant Analysis, to Single-Cell RNA-seq

Snowflakeで実現する All-in-One Bioinformatics Platform 2024年7月10日 17:00 Bio"Pack"athon 2024 #7 Tatsuya
Koreeda インシリコ創薬、疾患バリアント解析、シングルセル RNA-seqまで

2 Agenda イントロダクション今回やる解析 • Snowpark Container ServiceでシングルセルRNA-seq • VCFデータの格納とアノテーション情報をつけてバリアント解析
• Snowflake NotebooksとStreamlitを用いたIn silico創薬 Snowflakeのその他トピック将来の展望

イントロダクション

4 増え続けるバイオデータ SRAデータの容量 2007年5月：47.04 GB 2024年2月：27.93 PB 62万倍 https://www.ncbi.nlm.nih.gov/sra/docs/sragrowth/ シーケンシング技術の進歩によりゲノム
データの生成速度が急速に増加。データの生成コストも劇的に低下している

5 多岐に渡るバイオデータの種類 reference image: https://www.semanticscholar.org/paper/The-European-Bioinformatics-Institute%E2%80%99s-data-2014-Brooksbank-Bergman/1 c11992577c22af41ef1e861656d146fdd5d0f53 DNA, RNA, エピゲノム ,
タンパク質、タンパク質や化合物の構造情報、相互作用情報などバイオデータの種類は多く容量が大きくなるバイオデータを管理するための、ストレージコストと管理コストの増大が課題

6 学術利用に使われる主なコンピュートリソース種類ラボPC（オンプレミス）メリットデータが内部に保持されるため、機密性の高いデータを扱うのに最適ハードウェアとソフトウェアを自由にカスタマイズできるデメリットハードウェア、ソフトウェア、施設の構築など
高額な初期投資が必要。アップグレードや修理など維持管理が困難で、専任のITスタッフが必要。スパコンメリット高い計算能力を提供し、大規模で複雑なシミュレーションやデータ解析に最適。特定の計算タスクに特化したシステム設計が可能で、性能の最適化が容易。デメリット利用には予約が必要であり、使用時間に制約がある場合があり。 The image of server and computer is from TogoTV (© 2016 DBCLS TogoTV, CC-BY-4.0https://creativecommons.org/licenses/by/4.0/deed.ja

7 クラウドインターネット経由でアクセスするサーバーとそうしたサーバー上で実行されるソフトウェアやデータベース仮想化によって、シミュレートされたデジタルのみの「仮想」コンピューターが作成され、あたかもハードウェアを持つ実際の物理的なコンピューターであるかのように動作します。（cloudﬂare
HPより引用） https://www.cloudflare.com/ja-jp/learning/cloud/what-is-the-cloud/

8 クラウドで解析するメリットスケーラビリティと柔軟性クラウドサービスは、必要に応じて計算リソースを動的に拡張または縮小することができます。コスト効率使用したリソースに対してのみ料金が発生する従量課金制。また、ハードウェアの保守や更新のコストもクラウドプロバイダーに含まれて
いる。自動化と効率化さまざまな自動化ツールやサービスを提供しており、データ処理パイプラインの自動化やワークフローの効率化が可能。データの共有とコラボレーションデータや解析結果を簡単に共有することができ、複数の研究者やチームが同時にアクセスして共同作業を行うことが可能。セキュリティとコンプライアンスデータの暗号化、アクセス制御、監査ログなど、機密性の高いバイオデータを安全に管理できる。高性能コンピューティング高性能コンピューティング（ HPC）クラスターを迅速に構築して、大規模なシミュレーションやデータ解析が可能。

9 データウェアハウス製品社内データを一元管理できるビッグデータ用のデータレイク。最近は、AI・LLM機能も充実しておりデータ解析も可能となっている。データを外に出すことなくクラウド上でセキュアにデータ共有も可能

10 Snowflake reference image: https://www.snowflake.com/blog/beyond-modern-data-architecture/ クラウドベースのAI・コンピュートリソースといったビックデータに関わるオール・インプラットフォーム

11 Snowflakeの主な特徴① 伸縮性のある高性能エンジン • 複雑なデータパイプライン、大規模アナリティクス、特徴量エンジニアリング、アプリケーションを自動でスケール • 即時かつコスト効率の良いスケーリングで、性能に影響を与えることがない
• SQLを始め、Python、Java、Scala用 Snowpark開発者フレームワークが用意されている reference image: https://www.snowflake.com/ja/data-cloud/platform/?utm_cta=websi te-homepage-platform-card-elastic-compute

12 Snowflakeの主な特徴② 最適化されたストレージ • PDFなどの非構造化データも一元的に管理可能 • 最適化された圧縮、自動マイクロパーティション、ACIDコンプライアンス、Time Travelなどを活用
• オープンテーブル形式（Iceberg Tableなど）が利用可能 reference image: https://www.snowflake.com/ja/data-cloud/platform/?utm_cta=website-ho mepage-platform-card-elastic-compute

13 Snowflakeの料金コスト https://www.snowflake.com/legal-files/CreditConsumptionTable.pdf 課金方式従量課金 (On Demandの場合) 計算方法主にwarehouseの稼働時間 +
ストレージ容量で決まるコスト 0.047ドル/minutes (AWS Tokyo Standard)

14 今回Snowflake上で行う解析 1. Snowpark Container Serviceでシングルセル RNA-seq 2. 公共データベースから VCFファイルのアノテーション付けと
バリアントフィルタリング 3. Snowflake Notebooks + StreamlitでIn silico創薬

Snowpark Container Serviceでシングルセル RNA-seq

16 Snowpark Container Service（SPCS） • Snowflake エコシステム内でコンテナ化されたフルマネージドのコンテナ製品 • Docker
など)を使用して、アプリケーションイメージを Snowflake に簡単にアップロードできる • 外部にデータを移すことなく、 Snowflake 上で直接アプリを動かせる https://docs.snowflake.com/en/developer-guide/snowpark-container-services/overview Snowpark Container Serviceの特徴

17 Snowpark Container Serviceの使い方 1. COMPUTE POOLを作成し INSTANCE_FAMILY で CPUやGPUスペック
を定義する 2. Specを定義し、リソースの詳細な仕様を記述する 3. Service作成するコードの流れ

18 SPCS上にRstudioをホストしてシングルセル RNA-seq解析 1. ローカルで Rstudio ServerのDocker imageを作成し、 snowflakeのイメージレポジトリにプッシュ
2. プッシュされたイメージを下に snowpark container service上でサービスを作成。エンドポイントが払い出される。 3. 指定エンドポイントの Rstudio Server環境を使って Seuratによる解析を実施解析手順

19 使用するDocker Image   Rocker Projectにより作成された Rstudio Serverのベースイメージシングルセル RNA-seq向けに拡張させたイメージ
（docker pull kinngut/single-cell:latest で使えます）

20 Snowpark Container Serviceでシングルセル RNA-seq  single-cell RNA sequencing 個々の細胞内の遺伝子発現パターンを研究するために使用される方法です。これにより、細胞集団内の個々の細胞での遺伝子発現を分析することができます。今回はINF-βで刺激されたサンプルを用いてSeuratでUMAPプロットを書いてみようと思います。
  10 X genomics format Seurat DataからSeuratObjectをロードして解析をする Stephanie Hicks「Welcome to the World of Single-Cell RNA-Sequencing」

21 解析に用いるコード 1. データの準備 SeuratDataライブラリをロードし、データを読み込む 2. 次元削減とクラスタリングデータをフィルタリングし、正規化、変数特徴の抽出、スケーリング、
PCA、 UMAP、クラスタリングを実行 3. クラスタリング結果をプロット UMAPの結果をDimplotで可視化する処理の流れ

22 結果 Seurat DataからSeuratObjectをロードして解析をして UMAPプロットの描画に成功 

23 RNAseqchef(shiny-app)のホスト - https://github.com/Kan-E/RNAseqChef/tree/v1.0.0 RNA-seq解析により得られたカウントデータを自動的に解析・可視化するツール単一のデータセットの解析のみならず、複数のデータセットの統合解析が直感的な操作のみで可能
RNAseqchef shiny-applicationがSPCSに問題なくホスト可能 = 多くの生命科学系ツールの snowflakeでの利用が可能 

24 Snowpark Container Serviceのコスト https://docs.snowflake.com/en/developer-guide/snowpark-container-services/overview 課金方式主に使用時間による従量課金。 XSサイズの最低スペックで 0.31ドル/hour

25 Snowpark Container Serviceで用意できるスペック Mapping   vCPU  Memory (GiB)  
Storage (GiB)   GPU  GPU Memory (GiB)   CPU / XS~L   2~32  8~128   250  該当なし  該当なし  ハイメモリCPU / S,M,L   8~128   64~1024   250  該当なし  該当なし  GPU / S   8  32  250  1 NVIDIA A10G   24  GPU / M   48  192  250  4 NVIDIA A10G   96  GPU / L   192  2048  250  8 NVIDIA H100   640  スペック CPUメモリは1024GiBまで拡張可能。 NVIDIA GPU使用可能。

公共データベースの外部ステージ登録と VCF データのアノテーション付け

27 Tableと外部ステージ • Tableはデータを構造化する基本単位。 snowflakeのtableはマイクロパーティション、クラスタリングを自動で行ってくれる • AWS S3などを外部のストレージとして統
合することが可能 • SQLでのデータスクリーニングやアノテーションが可能 https://docs.snowflake.com/ja/user-guide/data-load-s3 Tableと外部ステージの特徴

28 Registry of Open Data on AWS https://registry.opendata.aws/ • AWS（Amazon
Web Services）が提供する研究者、データサイエンティスト向けの公開データセットのカタログ • S3バケットにデータが格納されている • オープンデータの利用促進とコミュニティの形成を目的としている Registry of Open Dataの特徴

29 公共データの外部ステージ登録と VCFデータのアノテーション付け 1. Open Data RegistryのDRAGEN 1000-Genomesプロジェクトの8人分ゲノムデータが入った S3を外部
ステージ登録する 2. snowflakeのテーブルに取り込む 3. Panelの情報が入ったS3を外部ステージ登録し、アノテーションを実行する解析の流れ

30 DRAGENのS3を外部ステージ登録外部ステージの作成 S3のURI (s3://1000genomes-dragen-3.7.6/data /individuals/hg38-graph-based）を Snowflakeのステージに登録する SQLでS3に入っているデータセットを確認できる（DIRECTORY関数）

31 DRAGENをsnowflakeのテーブルに取り込みクエリをするテーブルの定義・作成 DRAGENを取り込むためのテーブルを定義する。テーブルは Snowflakeでパフォーマンス最適化されているのでSQLでデータ確認が高速で可能。

32 Panelのアノテーション情報をつける準備 Panel 表現型データで各サンプルの地理的起源と性別、およびサンプル間の家族連鎖を記述したもの Panelの入ったS3のURI (s3://1000genomes/1000G_2504_hig h_coverage/additional_698_related/）をSnowflakeのステージに登録する

33 バリアントフィルタリング DRAGENとPanelデータを統合左の例は、特定の人口統計条件（今回は、イギリスの女性）の人々について、指定されたクロマソーム（クロマソーム 10）の特定の位置範囲（100,000から 500,000の間）の遺伝子型情報を取得した例。SQLのjoinで簡単にアノテーション
付与が可能

34 SnowflakeでVCFファイルのバリアント解析をするメリットフィルタリングワークフローの管理バリアント解析はcsvやvcfなど大量な中間ファイルができがち。 Snowflakeなら全てテーブルで保存できる。 SQLによる簡便なデータフィルタリング Snpsiftなどのツールと比較するとフィルタリング条件が SQLで保存しやすい。
Snowflake上でのストレージ圧縮メリットを受けれる SnowflakeはVCFを含む非構造化データをサポートしている。 Snowflakeに取り込むだけでストレージ容量を圧縮してくれる。

StreamlitとSnowflake Notebooksを用いたIn silico創薬

36 Streamlit in Snowflake • Pythonのオープンソースライブラリで、データをインタラクティブな Webアプリケーションとして素早く簡単に可視化可能 •
HTML、CSS、JavascriptなどのWebアプリケーション開発に必要な知識がなくても構築可能 • Snowflakeのデータクラウド上で Streamlitアプリを構築、展開、共有できる Streamlit in Snowflakeの特徴

37 Snowflake Notebooks • Python および SQL 用のインタラクティブなセルベースのプログラミング環境を提供する
Snowsight の開発インターフェイス • Streamlit などの他のライブラリを使用して、データをインタラクティブに視覚化可能 • Snowflake にすでに存在するデータを探索したり、ローカルファイル、外部クラウドストレージなどから Snowflake にアップロード可能 Snowflake Notebooksの特徴

38 StreamlitとSnowflake Notebooksを用いたバーチャルスクリーニング   特許や論文で薬の候補となる化合物が発表された場合、より有望な類似化合物を探したいことがあります。ここでは、インフルエンザ治療薬であるノイラミニダーゼ阻害薬「ラニナミビル」に類似した化合物を、 ZINC DBを利用して調査します。 laninamivir ZINC
DB バーチャルスクリーニング Screening Compounds

39 In silico創薬「化合物類似度の評価」 1. ライブラリ（RDkit）のインポート 2. 化合物の分子構造をSMILES表記から生成 Cc1ccccc1：トルエン Clc1ccccc1：トリクロロベンゼン
3. 生成した分子構造の画像を描画し、 Streamlitを使って表示 4. タニモト係数で類似度の評価ここでの類似度結果は「0.5384615384615384」処理の流れ

40 1. SMILESファイルから化合物データを読み込み 2. ノイラミニダーゼ阻害薬（ラニナミビル）の分子構造を定義し、類似度を計算するための関数を作成 3. 類似度が高い化合物をリストに追加し、その中から上位 10個を選ぶ
4. 選ばれた化合物を画像として Streamlitで可視化処理の流れ In silico創薬「バーチャルスクリーニング」  

41 In silico創薬「バーチャルスクリーニング」   Snowflake Notebooks上でノイラミニダーゼ阻害薬「ラニナミビル」に類似した化合物 Top10をスクリーニングし、Streamlitで分子構造を可視化した

42 SnowflakeでIn silico創薬をするメリット Snowflakeが用意する機械学習フレームワークを利用可能 Snowpark MLなどデータの移動や複雑なインフラの設定、ローカルでの環境構築が不要で迅速かつ効率的な機械学習の実行が可能大量の化合物データセットを効率よく格納創薬プロセスにおいて必要となる大量の化合物データや生物学的データを一元管理が可能。めぼしい化合物を類縁体スクリーニングに素早くかける事ができる
ハイコンピューティングリソースが要求される解析まで一貫して解析が可能 SPCSを利用すれば、 MDやドッキングシミュレーションといったハイコンピューティングリソースが要求される解析までエンドツーエンドで解析することが可能

Snowflakeのその他トピック

44 マルチオミクスを行う環境が簡単にセットアップ可能 • 解析で用いる多種のデータが一元管理可能 • Snowﬂake NotebooksでSQLや Pythonを用いていつでも呼び出し、組み合わせてマルチオミクス解
析ができる • 公共データベースのデータを Snowﬂake内部に入れずとも外部ステージとして管理できる化合物などのケモインフォマティクスデータ VCFファイルなどのゲノミクスデータ公共データベースアノテーション用のステージトランスクリプトーム解析 SPCSのイメージ管理マルチオミクスにおけるメリット

45 簡単にトライアル環境を作成できます • 30日間の無料トライアル • 400ドルの無料枠で snowﬂakeを存分にトライ可 • 画像のフォームに入力するだけで簡単に開始可能
https://signup.snowflake.com/?_l=ja&utm_source=google&utm_medium=paidsearch&utm_campaign=ap-jp-jp-brand-trial-exact&utm_content=go-rsa-evg-ss-free-trial&utm_term=c-g-snowflake%E3%83%88%E3%83%A9%E3 %82%A4%E3%82%A2%E3%83%AB-e&_bt=610748255507&_bk=snowflake%E3%83%88%E3%83%A9%E3%82%A4%E3%82%A2%E3%83%AB&_bm=e&_bn=g&_bg=142614214047&gclsrc=aw.ds&gad_source=1&gclid= CjwKCAjw4f6zBhBVEiwATEHFVkAg8jsfD0OH2W26UNyKTUFlMrCI8WhFO2Kcq4qgYhDGgEhwIRl5rhoC7N8QAvD_BwE

Snowflakeの今後

47 Data Clean Room reference image: https://www.snowflake.com/blog/data-privacy-life-sciences-clean-rooms/?lang=ja&wtime&utm_cta=data-science-workload-using- snowflake-for-ml-interference?wtime • オンデマンドでデータを匿名化
• 規制対象の患者データを製薬会社と共有できる（患者サンプル数の拡大） • データをエンリッチメントして分析し、臨床試験全体で患者アウトカムのパターンを特定 Data Clean Roomの特徴複数の組織がデータを共有し、協力して分析やインサイトの抽出を行うためのプライバシー保護環境

48 Cortex LLMによるライフサイエンスデータの取り扱い reference image: https://medium.com/snowflake/clinical-trial-assistant-a-rag-based-approach-on-snowflake-leveraging-cortex-capabilities-part-7d0 e548a1156 Snowﬂakeが管理する大規模言語モデルサービスで様々なモデルが利用可能 • 医療データPDFなど非構造化
データを扱えることや生物医学用語を理解するLLMモデルの構築が可能 • バイオ系は公開データがたくさんあり、それを使って LLMを構築することができる • ユースケースとして関連する患者データセットを照会するモデルなど

最後に

50 各種SNSフォローしていただけると嬉しいです X（Twitter）：@cs_dev_engineer Medium：@t.koreeda LinkedIn：@tkoreeda Zenn：@t_koreeda Zennでの発信例

THANK YOU

52 マルチオミクスを行う環境が簡単にセットアップ可能 • 解析で用いる多種のデータが一元管理可能 • Snowﬂake NotebooksでSQLや Pythonを用いていつでも呼び出し、組み合わせてマルチオミクス解
析ができる • 公共データベースのデータを Snowﬂake内部に入れずとも外部ステージとして管理できる Chemical informatics data such as compounds Genomics data such as VCF files Public database annotation stages Transcriptome analysis and SPCS image management マルチオミクスにおけるメリット

All-in-One Bioinformatics Platform Realized wit...

All-in-One Bioinformatics Platform Realized with Snowflake ~ From In Silico Drug Discovery, Disease Variant Analysis, to Single-Cell RNA-seq

More Decks by Tatsuya Koreeda

Other Decks in Science

Featured

Transcript