Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ICTSC2020 Ceph
Search
onokatio
March 06, 2021
Technology
1
240
ICTSC2020 Ceph
ICTSC2020 LT会で話したCephの話です
onokatio
March 06, 2021
Tweet
Share
Other Decks in Technology
See All in Technology
Amazon GuardDuty Malware Protection for Amazon S3を使おう
ryder472
2
100
17年のQA経験が導いたスクラムマスターへの道 / 17 Years in QA to Scrum Master
toma_sm
0
390
ソフトウェア開発におけるインターフェイスという考え方 / PHPerKaigi 2025
k1low
9
3.9k
グループポリシー再確認
murachiakira
0
160
Proxmox VE超入門 〜 無料で作れるご自宅仮想化プラットフォームブックマークする
devops_vtj
0
120
BCMathを高速化した一部始終をC言語でガチ目に解説する / BCMath performance improvement explanation
sakitakamachi
2
1.2k
Engineering Managementのグローバルトレンド #emoasis / Engineering Management Global Trend
kyonmm
PRO
6
990
AI・LLM事業部のSREとタスクの自動運転
shinyorke
PRO
0
300
Dapr For Java Developers SouJava 25
salaboy
1
130
Restarting_SRE_Road_to_SRENext_.pdf
_awache
0
160
React Server Componentは 何を解決し何を解決しないのか / What do React Server Components solve, and what do they not solve?
kaminashi
6
1.2k
一人QA時代が終わり、 QAチームが立ち上がった話
ma_cho29
0
290
Featured
See All Featured
RailsConf 2023
tenderlove
29
1k
Building Applications with DynamoDB
mza
94
6.3k
Typedesign – Prime Four
hannesfritz
41
2.6k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
22
2.6k
Building a Modern Day E-commerce SEO Strategy
aleyda
39
7.2k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.4k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
8
700
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Transcript
Cephの話 おのかちお
ぼく • おのかちお • 今日のSELinux問題を作った人です ◦ 前半ドタバタしてごめん… :pray: • インフラチームでストレージ周りやってました
注意 このCephは、監視基盤のCeph(Rook)とは別のクラスタです
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
以前のストレージ構成
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
Cephとは • 分散ストレージ • レプリカの話 • SPOFが居ない • OSDの自動認識 •
リバランス • S3/NFS/CephFS/RBDのインターフェイス
Cephとは - 分散ストレージ • データが分散される ◦ (機材があれば)いくらでもスケールできる • データが複製される ◦
どこかで壊れるor無くなってもデータが消えくい • 単一障害点をなくしやすい ◦ コントロールプレーンもデータプレーンも
Cephとは - レプリカの話 • レプリカ = 重複度 • レプリカサイズ3ならデータが3重に保存される ◦
ただし使用ストレージ容量も3倍 ◦ 書き込み実質速度は3倍 ◦ (今回はWritebackなので実質1倍)
Cephとは - SPOFが居ない • Cephは、Single Point Of Failure(単一障害点)ができにくい仕組 みになっています。 ◦
データプレーン: レプリカ ◦ コントロールプレーン: CRUSHアルゴリズム
Cephとは - 物理ディスクの自動認識 • Cephを構成するサーバーに新しいディスクが挿入される ↓ • 全自動で初期化・Cephへ追加
Cephとは - リバランス • データが増える or 物理ディスクが増える ↓ • 再配置・細分化
Cephとは - インターフェイス • NFS • S3 • CephFS •
RBD (Rados Block Device)
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
今回のCephの構成と容量の話 • コントロールプレーン: 6ノード • データプレーン: 6ノード ◦ SSD x6
◦ HDD x3 × 4 × 2 × 2
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
ブロックストレージをCephに置く話 • Cephの速度計測会 • humstackがブロックストレージをCephRBDに置く • ところで トラコンのVMの数について
Cephの速度計測会
Cephの速度計測会
Cephの速度計測会
Cephの速度計測会
Cephの速度計測会 (BS展開時)
Cephの速度計測会 (VM起動時)
Cephの速度計測会 (Ceph pool)
humstackがBSをCeph RBDに置く • humstack(仮想化基盤) がCephにブロックストレージを置ける ように改良 by t-inagaki ↓ •
結果的に一つのVM作成・起動が数分程度に! ◦ コンピュートノード間のコピーが要らなくなった ◦ ただしレプリカ=1なので、分散されているだけで耐障害性 の旨みはない
ところで トラコンのVMの数について • 総VM数: 20~30台程度 • チーム数: 22 • 1VM
5GBぐらい 20 〜 30 * 22 *5 = 2 〜 3TB → レプリカサイズを3にすると、9TB超になる → SSD 6TBを超えてしまう
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
Cephのsnapshotの話 • Ceph RBDには、既存のオブジェクトをベースに別のオブジェ クトを展開する機能がある • レイヤーとして、ベースと差分を分けられる • VMの差分のみ保存され、各ストレージの共通部分は一つのブ ロックストレージに!
• 展開は爆速・実際に書き込むまで使用容量ゼロ • イメージとしてはDockerのoverlayfs
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
起こったトラブルの話 • ioDriveが認識されない • 時刻の精度を高めないといけない話 • OSDがメモリを食ってwireguardサーバーが落ちた話 • Dockerとpodmanが何故か混在した話 •
本番の日の朝にPGの数がオートスケールされることがわかった ので先にPGの数を増やした話
起こったトラブルの話 • ioDriveが認識されない • SSDのドライバがカスタムモジュール ◦ LV metadより先に読み込まれると、CephがLVMを認識 できない ◦
LV metadを無効化し、イベント的にdevice mapperを 認識するようにした
起こったトラブルの話 • 時刻の精度を高めないといけない話 • Cephは時刻の精度が0.05s以下でないとWARNを出す ◦ 最初はNTPdを立てて運用 ▪ spofになるので止めたい ◦
NICTのNTPを使ったら精度があがった ▪ ありがとうNICT!
起こったトラブルの話 • Dockerとpodmanが何故か混在した話 ◦ おそらくインストールミスでDockerとpodmanがノード で混在 ◦ podman消す && Dockerインストール
◦ → OSDとmonが自動で再展開されない ◦ →手動でreapplyして解決
起こったトラブルの話 • 本番の日の朝にPGの数がオートスケールされることがわかった ので先にPGの数を増やした話 ◦ Cephのper OSD PGが2^nを超えるとPGサイズを細分化し てリバランス ◦
→本番中に起こったらSlow OPsになりそう ◦ →今朝気づいた運営委員が事前に細分化
起こったトラブルの話 • ioDriveが認識されない • 時刻の精度を高めないといけない話 • OSDがメモリを食ってwireguardサーバーが落ちた話 • Dockerとpodmanが何故か混在した話 •
本番の日の朝にPGの数がオートスケールされることがわかった ので先にPGの数を増やした話
ご静聴ありがとうございました 質問などあればZoomで話しかけてください! もしくはTwitter (@onokatio_) まで