Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Container, Cloud, and HPC
Search
Tazro Inutano Ohta
March 13, 2018
Science
0
150
Container, Cloud, and HPC
DBCLSでのコンテナ・クラウド活用紹介 in 第一回 HPC-OPS 研究会
https://bit.riken.jp/2018/02/1st-hpc-ops-mtg/
Tazro Inutano Ohta
March 13, 2018
Tweet
Share
More Decks by Tazro Inutano Ohta
See All by Tazro Inutano Ohta
Yevis: System to support building a workflow registry with automated quality control
inutano
0
100
Standardization of biological sample information database
inutano
0
54
Describe data analysis workflow with workflow languages
inutano
5
4.6k
Container virtualization technologies and workflow languages improve portability and reproducibility of data analysis environment
inutano
3
320
次世代シーケンサーによるメタゲノム解析:桜の花びらに付着した環境DNAを解析する
inutano
0
76
Workflows that run everywhere and where to run them
inutano
0
130
The Sequence Read Archive search system to make use of public high-throughput sequencing data
inutano
0
250
Improve portability of bioinformatics software across HPC and cloud infrastructures
inutano
1
94
shell-vs-genome
inutano
0
760
Other Decks in Science
See All in Science
WeMeet Group - 採用資料
wemeet
0
3.7k
白金鉱業Meetup Vol.16_数理最適化案件のはじめかた・すすめかた
brainpadpr
3
950
Transformers are Universal in Context Learners
gpeyre
0
620
Celebrate UTIG: Staff and Student Awards 2024
utig
0
500
【人工衛星開発】能見研究室紹介動画
02hattori11sat03
0
160
ほたるのひかり/RayTracingCamp10
kugimasa
0
410
はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよいのか問題
takehikoihayashi
2
930
マクロ経済学の視点で、財政健全化は必要か
ryo18cm
1
100
最適化超入門
tkm2261
14
3.3k
Direct Preference Optimization
zchenry
0
300
The Incredible Machine: Developer Productivity and the Impact of AI
tomzimmermann
0
420
科学で迫る勝敗の法則(名城大学公開講座.2024年10月) / The principle of victory discovered by science (Open lecture in Meijo Univ. 2024)
konakalab
0
230
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
It's Worth the Effort
3n
183
28k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Bash Introduction
62gerente
608
210k
A better future with KSS
kneath
238
17k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
520
The Pragmatic Product Professional
lauravandoore
32
6.3k
Writing Fast Ruby
sferik
628
61k
Documentation Writing (for coders)
carmenintech
66
4.5k
Facilitating Awesome Meetings
lara
50
6.1k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Designing for Performance
lara
604
68k
Transcript
DBCLS でのコンテナ・ クラウド活用紹介 ライフサイエンス統合デー タベー スセンター (DBCLS) 大田達郎 @inutano
誰 ゲノムデー タの共有促進のための技術開発をしています twitter.com/iNut github.com/inutano speakerdeck.com/inutano 所属 ライフサイエンス統合デー タベー スセンター
(DBCLS) 生命科学研究に資する研究開発 デー タリソー ス、 インフラ
話すこと 話題提供 科学研究の現場におけるインフラについて 広く浅く キー ワー ド オンプレ (and|or) クラウド
HPC をクラウドで拡張する コンテナによるアプリケー ションの可搬性と再現性の向上
Topics 1. WebApp hosting: オンプレとクラウドの間 2. HPC x Cloud: 前処理から可視化まで
3. HPC x Container: セキュリティの問題と環境選択
WebApp hosting
WebApp hosting on DBCLS 約30 ほどのウェブアプリケー ション 従来は全て自前のウェブサー バで 計算機の管理コスト削減、
停電対策のため商用クラウド利用を開始 課題 コスト 長期に維持するならオンプレの方が安い場合も 特にストレー ジと転送料金が高い セキュリティ クラウド扱える人材 ベンダー ロックイン 何をクラウドで、 何をオンプレでホストするか?
事例: ChIP‑Atlas 世界中から集まる公開済み実験デー タを統一基準で再解析 http://chip‑atlas.org 再解析したデー タを使ったデー タ分析ツー ルを提供 ユー
ザデー タとの比較 関連するデー タの検索 デー タサイズが巨大 FTP サー バのファイル合計20TB 程度 毎月更新 現在70,000 件ほどの実験デー タを公開 NBDC のDB アー カイブを利用 研究デー タ公開用アー カイブサー ビス
事例: ChIP‑Atlas 毎月更新の処理とオンデマンド解析 in silico ChIP を NIG SC で
bed デー タ (20TB) は NBDC DB Archive から配信
HPC x Cloud
HPC x Cloud 遺伝学研究所スー パー コンピュー ター システム スパコン? でかいクラスタマシン
分散ジョブ実行システム (Univa Grid Engine) 大型共有ストレー ジ (lustre) と 共有メモリ (max 10TB) 商用クラウドと接続 混雑時に分散できる ウェブサー バが建てられる ゲノムブラウザ Jupyter notebook クラウドの料金はユー ザが負担 ( 請求書払いが可能) 興味のあるユー ザの方は問い合わせを
NIG SC to Cloud 1. ユー ザが reseller に登録すると IAM
ユー ザが作成される 2. ユー ザはNIG スパコンにログインしスクリプトを実行 3. デー タのコピー とEC2 へのログインが実行される
HPC x Container
Which container? 遺伝研スパコンテスト環境でdocker を試験 OS やドライバの問題があり本番環境には反映していない docker/udocker/shifter/singularity? 最終的な結論は出ていない 事例の少なさ OS
やドライバの制約 セキュリティ
Container metrics コンテナによる可搬性の向上により環境の選択肢が増える アプリケー ションごとに必要なスペックを知る必要がある github.com/inutano/docker‑metrics‑collector Telegraf/Fluentd/Elasticsearch+Kibana g i t
c l o n e & & d o c k e r - c o m p o s e u p Common Workflow Language との接続を実装中
Container metrics 1. Telegraf が同一ホスト上のコンテナによるリソー ス消費を記録 2. fluentd が elasticsearch
にログを貯める 3. CWL のワー クフロー メタデー タをelasticsearch にロー ド 4. kibana で可視化、elasticsearch でメタデー タの全文検索が可能
科学研究のためのインフラは何であるべきか
アカデミアにおけるインフラ開発整備のモチベー ション 世の研究者は時間がない 計算機をメンテする時間がない それクラウドで… ソフトウェアを都度インストー ルするのが面倒 それコンテナで… 新しい技術は導入のハー ドルが高い
研究者はインフラのことを1 秒も考えずに研究したい 「 気がついたら使っていた」 がベスト 研究者に時間を作ることの価値は計り知れない
Monthly Meetup の勧め 研究者の数に対してインフラを( やりたい| やれる| やる) 人は少ない 結託すべし 既に誰かが悩んだことで悩んではいけない
月に一度、 組織の垣根を超えて共同作業する日があるとよい SPARQLthon Galaxy meetup Workflow meetup 研究は競争かもしれないが、 インフラはオー プンに
まとめ オンプレとクラウドの使い分け、 その見極めが重要 HPC とクラウドの接続をユー ザに意識させない HPC におけるコンテナ利用の事例を積み上げて普及を 開発者同士の情報交換の場をつくる