Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Container, Cloud, and HPC
Search
Tazro Inutano Ohta
March 13, 2018
Science
0
170
Container, Cloud, and HPC
DBCLSでのコンテナ・クラウド活用紹介 in 第一回 HPC-OPS 研究会
https://bit.riken.jp/2018/02/1st-hpc-ops-mtg/
Tazro Inutano Ohta
March 13, 2018
Tweet
Share
More Decks by Tazro Inutano Ohta
See All by Tazro Inutano Ohta
Yevis: System to support building a workflow registry with automated quality control
inutano
0
110
Standardization of biological sample information database
inutano
0
70
Describe data analysis workflow with workflow languages
inutano
5
5.3k
Container virtualization technologies and workflow languages improve portability and reproducibility of data analysis environment
inutano
3
340
次世代シーケンサーによるメタゲノム解析:桜の花びらに付着した環境DNAを解析する
inutano
0
96
Workflows that run everywhere and where to run them
inutano
0
150
The Sequence Read Archive search system to make use of public high-throughput sequencing data
inutano
0
290
Improve portability of bioinformatics software across HPC and cloud infrastructures
inutano
1
110
shell-vs-genome
inutano
0
800
Other Decks in Science
See All in Science
データベース02: データベースの概念
trycycle
PRO
2
780
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
120
機械学習 - 授業概要
trycycle
PRO
0
210
データベース08: 実体関連モデルとは?
trycycle
PRO
0
780
安心・効率的な医療現場の実現へ ~オンプレAI & ノーコードワークフローで進める業務改革~
siyoo
0
270
03_草原和博_広島大学大学院人間社会科学研究科教授_デジタル_シティズンシップシティで_新たな_学び__をつくる.pdf
sip3ristex
0
510
Accelerated Computing for Climate forecast
inureyes
PRO
0
110
生成検索エンジン最適化に関する研究の紹介
ynakano
2
1.1k
機械学習 - DBSCAN
trycycle
PRO
0
930
mathematics of indirect reciprocity
yohm
1
160
ガウス過程回帰とベイズ最適化
nearme_tech
PRO
1
470
データベース03: 関係データモデル
trycycle
PRO
1
140
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Speed Design
sergeychernyshev
32
1k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Mobile First: as difficult as doing things right
swwweet
223
9.7k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.9k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.2k
Statistics for Hackers
jakevdp
799
220k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
21
1.3k
Code Reviewing Like a Champion
maltzj
524
40k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Transcript
DBCLS でのコンテナ・ クラウド活用紹介 ライフサイエンス統合デー タベー スセンター (DBCLS) 大田達郎 @inutano
誰 ゲノムデー タの共有促進のための技術開発をしています twitter.com/iNut github.com/inutano speakerdeck.com/inutano 所属 ライフサイエンス統合デー タベー スセンター
(DBCLS) 生命科学研究に資する研究開発 デー タリソー ス、 インフラ
話すこと 話題提供 科学研究の現場におけるインフラについて 広く浅く キー ワー ド オンプレ (and|or) クラウド
HPC をクラウドで拡張する コンテナによるアプリケー ションの可搬性と再現性の向上
Topics 1. WebApp hosting: オンプレとクラウドの間 2. HPC x Cloud: 前処理から可視化まで
3. HPC x Container: セキュリティの問題と環境選択
WebApp hosting
WebApp hosting on DBCLS 約30 ほどのウェブアプリケー ション 従来は全て自前のウェブサー バで 計算機の管理コスト削減、
停電対策のため商用クラウド利用を開始 課題 コスト 長期に維持するならオンプレの方が安い場合も 特にストレー ジと転送料金が高い セキュリティ クラウド扱える人材 ベンダー ロックイン 何をクラウドで、 何をオンプレでホストするか?
事例: ChIP‑Atlas 世界中から集まる公開済み実験デー タを統一基準で再解析 http://chip‑atlas.org 再解析したデー タを使ったデー タ分析ツー ルを提供 ユー
ザデー タとの比較 関連するデー タの検索 デー タサイズが巨大 FTP サー バのファイル合計20TB 程度 毎月更新 現在70,000 件ほどの実験デー タを公開 NBDC のDB アー カイブを利用 研究デー タ公開用アー カイブサー ビス
事例: ChIP‑Atlas 毎月更新の処理とオンデマンド解析 in silico ChIP を NIG SC で
bed デー タ (20TB) は NBDC DB Archive から配信
HPC x Cloud
HPC x Cloud 遺伝学研究所スー パー コンピュー ター システム スパコン? でかいクラスタマシン
分散ジョブ実行システム (Univa Grid Engine) 大型共有ストレー ジ (lustre) と 共有メモリ (max 10TB) 商用クラウドと接続 混雑時に分散できる ウェブサー バが建てられる ゲノムブラウザ Jupyter notebook クラウドの料金はユー ザが負担 ( 請求書払いが可能) 興味のあるユー ザの方は問い合わせを
NIG SC to Cloud 1. ユー ザが reseller に登録すると IAM
ユー ザが作成される 2. ユー ザはNIG スパコンにログインしスクリプトを実行 3. デー タのコピー とEC2 へのログインが実行される
HPC x Container
Which container? 遺伝研スパコンテスト環境でdocker を試験 OS やドライバの問題があり本番環境には反映していない docker/udocker/shifter/singularity? 最終的な結論は出ていない 事例の少なさ OS
やドライバの制約 セキュリティ
Container metrics コンテナによる可搬性の向上により環境の選択肢が増える アプリケー ションごとに必要なスペックを知る必要がある github.com/inutano/docker‑metrics‑collector Telegraf/Fluentd/Elasticsearch+Kibana g i t
c l o n e & & d o c k e r - c o m p o s e u p Common Workflow Language との接続を実装中
Container metrics 1. Telegraf が同一ホスト上のコンテナによるリソー ス消費を記録 2. fluentd が elasticsearch
にログを貯める 3. CWL のワー クフロー メタデー タをelasticsearch にロー ド 4. kibana で可視化、elasticsearch でメタデー タの全文検索が可能
科学研究のためのインフラは何であるべきか
アカデミアにおけるインフラ開発整備のモチベー ション 世の研究者は時間がない 計算機をメンテする時間がない それクラウドで… ソフトウェアを都度インストー ルするのが面倒 それコンテナで… 新しい技術は導入のハー ドルが高い
研究者はインフラのことを1 秒も考えずに研究したい 「 気がついたら使っていた」 がベスト 研究者に時間を作ることの価値は計り知れない
Monthly Meetup の勧め 研究者の数に対してインフラを( やりたい| やれる| やる) 人は少ない 結託すべし 既に誰かが悩んだことで悩んではいけない
月に一度、 組織の垣根を超えて共同作業する日があるとよい SPARQLthon Galaxy meetup Workflow meetup 研究は競争かもしれないが、 インフラはオー プンに
まとめ オンプレとクラウドの使い分け、 その見極めが重要 HPC とクラウドの接続をユー ザに意識させない HPC におけるコンテナ利用の事例を積み上げて普及を 開発者同士の情報交換の場をつくる