Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
無限ストレージ
Search
Satoru Takeuchi
PRO
July 10, 2021
Technology
16
15k
無限ストレージ
以下イベントの発表資料です
https://kernelvm.connpass.com/event/209105/
Satoru Takeuchi
PRO
July 10, 2021
Tweet
Share
More Decks by Satoru Takeuchi
See All by Satoru Takeuchi
俺とVSCode Python Debugger Extension
sat
PRO
1
160
コード再利用のしくみ ライブラリ
sat
PRO
3
43
AWKへの愛を語る
sat
PRO
3
510
syncコマンドのデータ同期 完了待ちやエラー検出
sat
PRO
0
57
動作中のLinux環境の全メモリを見る
sat
PRO
1
70
Linuxの時間を10秒止める
sat
PRO
2
190
プロセスへのメモリ割り当て4 - 実際に使うときにメモリを獲得するデマンドページング(実践編)
sat
PRO
1
100
プロセスへのメモリ割り当て(3) 実際に使うときにメモリを獲得するデマンドページング
sat
PRO
1
66
プロセスへのメモリ割り当て(1) mmap
sat
PRO
2
120
Other Decks in Technology
See All in Technology
プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introduction and Case Studies on Implementing and Operating System Risk Records for Product Teams
taddy_919
1
170
[AWS JAPAN 生成AIハッカソン] Dialog の紹介
yoshimi0227
0
150
「 SharePoint 難しい」ってよく聞くけど、そんなに言うなら8歳の息子に試してもらった
taichinakamura
1
620
CyberAgent 生成AI Deep Dive with Amazon Web Services / genai-aws
cyberagentdevelopers
PRO
1
480
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
27
12k
Gradle: The Build System That Loves To Hate You
aurimas
2
150
10分でわかるfreee エンジニア向け会社説明資料
freee
18
520k
新卒1年目が向き合う生成AI事業の開発を加速させる技術選定 / ai-web-launcher
cyberagentdevelopers
PRO
7
1.5k
AWS re:Inventを徹底的に楽しむためのTips / Tips for thoroughly enjoying AWS re:Invent
yuj1osm
1
570
グローバル展開を見据えたサービスにおける機械翻訳プラクティス / dp-ai-translating
cyberagentdevelopers
PRO
1
150
リンクアンドモチベーション ソフトウェアエンジニア向け紹介資料 / Introduction to Link and Motivation for Software Engineers
lmi
4
290k
新R25、乃木坂46 Mobileなどのファンビジネスを支えるマルチテナンシーなプラットフォームの全体像 / cam-multi-cloud
cyberagentdevelopers
PRO
1
130
Featured
See All Featured
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.8k
Fontdeck: Realign not Redesign
paulrobertlloyd
81
5.2k
4 Signs Your Business is Dying
shpigford
180
21k
Rails Girls Zürich Keynote
gr2m
93
13k
A Tale of Four Properties
chriscoyier
156
23k
Mobile First: as difficult as doing things right
swwweet
222
8.9k
The Power of CSS Pseudo Elements
geoffreycrofte
72
5.3k
Agile that works and the tools we love
rasmusluckow
327
21k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
32
1.8k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
228
52k
Faster Mobile Websites
deanohume
304
30k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
9
680
Transcript
無限ストレージ Jul. 10th, 2021 Satoru Takeuchi twitter: satoru_takeuchi, EnSatoru 1
ストレージのコストは高い 1. ハードウェアコストは高い 2. ストレージシステムを組むコストも高い 3. 運用コストも高い 2
今日のテーマ 1. ハードウェアコストは高い 2. ストレージシステムを組むコストも高い 3. 運用コストも高い 3
容量が無限のストレージさえあれば… 1. 構築 2. 容量を無限に増やす 3. バイト単価が実質ゼロに 4. うれしい 4
実現方法: Cephを使う • CephはOSSの分散ストレージ • 提供するストレージ ◦ ブロックデバイス(RBD) ◦ ファイルシステム(CephFS)
◦ オブジェクトストレージ (RGW) 5
Cephのアーキテクチャ 6 ストレージプール RBD CephFS RGW node node node node
disk OSD disk OSD disk OSD disk OSD データはOSD間に均等に分散配置される データはOSD間に均等に分散配置される データはOSD間に均等に分散配置される データは全OSDに均等に分散配置される
RBDに注目! 7 ストレージプール RBD node node node node disk OSD
disk OSD disk OSD disk OSD
もしRBDの上にOSDを作れれば… 8 ストレージプール RBD node node node node disk OSD
disk OSD disk OSD disk OSD OSD
もしOSD on RBDのみからクラスタを作れれば… 9 ストレージプール rbd OSD rbd OSD rbd
OSD rbd OSD
無限ストレージができるのでは? 10 ストレージプール rbd OSD rbd OSD rbd OSD rbd
OSD 超自然的パワー 無限のデータ やったね!
つくりかた 1. 物理ディスク上のOSD(以下OSD on diskと記載)からCephクラスタを作る 2. クラスタからRBDを切り出す 3. RBD上にOSD(以下OSD on
RBDと記載)を作ってクラスタに組み込む 4. OSD on diskをクラスタから切り離す 11
環境 • Ubuntu: 18.04.4 • Linuxカーネル: 4.15.0-99 • Ceph: v15.2.12
• Rook(Cephのオーケストレータ): v1.6.7 12
初期状態 13 ストレージプール disk OSD 1node, 1OSD on disk(10GiB)のシンプルな構造 #
ceph -s ... osd: 1 osds: 1 up (since 9m) …usage: 1.0 GiB used, 9.0 GiB / 10 GiB avail
RBDを作る 14 ストレージプール disk OSD RBD
次: RBDの上にOSDを作る 15 ストレージプール disk OSD RBD OSD
成功 16 ストレージプール disk OSD RBD OSD # ceph -s
... osd: 2 osds: 2 up
容量も倍になった! 17 ストレージプール disk OSD RBD OSD # ceph -s
... osd: 2 osds: 2 up ... usage: 2.0 GiB used, 18 GiB / 20 GiB avail
次: OSD on diskをクラスタから切り離す 18 ストレージプール disk OSD RBD OSD
成功! 19 ストレージプール disk OSD RBD OSD # ceph -s
... osd: 1 osds: 1 up ... usage: 1.0 GiB used, 9.0 GiB / 10 GiB avail
…と思ったら死んだ! 20 ストレージプール disk OSD RBD OSD osd: 1 osds:
0 up
原因 21 ストレージプール disk OSD RBD OSD 1. OSD on
RBDのメタデータはOSD on diskに保存されている 2. OSD on diskを削除するとそこにあったデータはロスト 3. OSD on RBDが機能しなくなりDOWN 新OSDのメタデータ
対策: データを冗長化させて徐々に移動させる 22 1. 最初にOSD on diskを二つ作る 2. OSD on
RBDを2つ作る 3. OSD on diskを1つ削除。このOSDにあったデータは他の OSDに移動 4. OSD on diskをもう1つ削除。その後は同上
初期状態その2 23 ストレージプール disk OSD • 1node, 2OSD on disk(それぞれ10GiB)
# ceph -s ... osd: 2 osds: 2 up … usage: 2.0 GiB used,18.0 GiB / 20 GiB avail disk OSD
次: OSD on RBDを2つ作る 24 ストレージプール disk OSD disk OSD
RBD OSD RBD OSD
問題発生: データのリバランスが終わらない 25 ストレージプール disk OSD RBD OSD RBD OSD
disk OSD • 期待値: OSD on disk上のデータの半分が OSD on RBDに移動 • 実際: 全然進まない
原因: 循環I/O 26 ストレージプール disk OSD RBD OSD RBD OSD
disk OSD 1. OSD on disk上のデータをOSD on RBDに移動 2. 移動時のwriteは同期write 3. OSD on RBDへの同期write->OSD on diskへの同期write->OSD on RBDへの(ry
解決方法: 同期writeしないようにCephを改造 27 • open()に付与されたO_SYNC,O_DSYNC,O_DIRECTを削除 • sync系システムコールの呼び出しをすべて削除 ◦ sync(), fsync(),
fdatasync(), sync_file_range()...
改造したCephを使ってもう一回やってみると… 28 ストレージプール disk OSD disk OSD RBD OSD RBD
OSD
やっぱり循環I/O発生! 29 ストレージプール disk OSD RBD OSD RBD OSD disk
OSD • 原因不明 • カーネルのrbdドライバの変更が必要 ? • ここで時間切れ
(推測) 仮に次のステップに行けたとして… 30 ストレージプール RBD OSD RBD OSD
(推測) こうなるか? 31 ストレージプール RBD OSD RBD OSD やったね! 無限I/O
超自然的パワー
(推測) 無限に書き込むと… 32 ストレージプール RBD OSD RBD OSD できるよね? 無限write
(推測) たぶん死ぬ 33 ストレージプール RBD OSD RBD OSD 君にはがっかりだ RBD
無限write カーネルパニック!
(推測) 原因 1. OSD on RBDのデータはアタッチされたノードのメモリ上にのみ存在 2. メモリが足りないとOOM発動 3. プロセスを皆殺しにした後にカーネルパニック
4. ノード上のデータはすべて消える 34
結論 • 超自然的パワーは無かった • 無限ストレージも無かった • ハードウェアコストは高い 35
おわり 36 残念だったな