Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アプリのコンテナ化と排他制御 ~ データ 破壊 だ ヨ 全員集合
Search
Satoru Takeuchi
PRO
November 30, 2020
Technology
6
8.6k
アプリのコンテナ化と排他制御 ~ データ 破壊 だ ヨ 全員集合
Kubernetes Meetup Tokyo #36のLT資料です。
https://k8sjp.connpass.com/event/196212/
Satoru Takeuchi
PRO
November 30, 2020
Tweet
Share
More Decks by Satoru Takeuchi
See All by Satoru Takeuchi
利きプロセススケジューラ
sat
PRO
5
3k
俺とVSCode Python Debugger Extension
sat
PRO
1
180
コード再利用のしくみ ライブラリ
sat
PRO
3
49
AWKへの愛を語る
sat
PRO
3
520
syncコマンドのデータ同期 完了待ちやエラー検出
sat
PRO
0
65
動作中のLinux環境の全メモリを見る
sat
PRO
1
98
Linuxの時間を10秒止める
sat
PRO
2
210
プロセスへのメモリ割り当て4 - 実際に使うときにメモリを獲得するデマンドページング(実践編)
sat
PRO
1
120
プロセスへのメモリ割り当て(3) 実際に使うときにメモリを獲得するデマンドページング
sat
PRO
1
73
Other Decks in Technology
See All in Technology
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
2
3.2k
初心者向けAWS Securityの勉強会mini Security-JAWSを9ヶ月ぐらい実施してきての近況
cmusudakeisuke
0
140
A Tour of Anti-patterns for Functional Programming
guvalif
0
250
インフラとバックエンドとフロントエンドをくまなく調べて遅いアプリを早くした件
tubone24
1
440
BLADE: An Attempt to Automate Penetration Testing Using Autonomous AI Agents
bbrbbq
0
340
安心してください、日本語使えますよ―Ubuntu日本語Remix提供休止に寄せて― 2024-11-17
nobutomurata
1
1k
rootlessコンテナのすゝめ - 研究室サーバーでもできる安全なコンテナ管理
kitsuya0828
3
390
SDN の Hype Cycle を一通り経験してみて思うこと / Going through the Hype Cycle of SDN
mshindo
3
230
AI前提のサービス運用ってなんだろう?
ryuichi1208
8
1.4k
SSMRunbook作成の勘所_20241120
koichiotomo
3
180
電話を切らさない技術 電話自動応答サービスを支える フロントエンド
barometrica
2
290
OCI Network Firewall 概要
oracle4engineer
PRO
0
4.2k
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
40
2.4k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Building Applications with DynamoDB
mza
90
6.1k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Designing the Hi-DPI Web
ddemaree
280
34k
The Pragmatic Product Professional
lauravandoore
31
6.3k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Making the Leap to Tech Lead
cromwellryan
133
8.9k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
Transcript
アプリのコンテナ化と排他制御 ~ データ破壊だヨ!全員集合 Nov 30, 2020 sat@サイボウズ 1
前置き ▌アプリのコンテナ化は罠だらけ ▌本セッションは排他制御にまつわる罠を紹介 ▌実例として最近検出したRook/Ceph(後述)の データ破壊問題を紹介 2
Cephとは ▌OSSの分散ストレージシステム ▌データはOSDという領域に保存 ⚫OSDはクラスタ内のディスク上に作成 ⚫Ceph-osdというdaemonがOSD上のデータを読み書き ▌各データは全OSDにおおむね均等に分散配置 3 node0 node1 HDD
HDD HDD HDD OSD OSD OSD OSD
データ書き込み時の挙動 4 node0 node1 Cephクライアント HDD HDD HDD HDD OSD
OSD OSD OSD data0
データ書き込み時の挙動 5 node0 node1 Cephクライアント HDD HDD HDD HDD OSD
OSD OSD OSD data1 data0
データ書き込み時の挙動 6 node0 node1 Cephクライアント HDD HDD HDD HDD OSD
OSD OSD OSD data1 data2 data0
データ書き込み時の挙動 7 node0 node1 Cephクライアント HDD HDD HDD HDD OSD
OSD OSD OSD data1 data2 data0 data3
Rookとは ▌K8s上で動作するCephのオーケストレーション ▌1つのOSDに対して1つPodが存在 8 node OSD Pod OSD Pod HDD
HDD OSD OSD ceph-osd ceph-osd 操作 操作
OSD Podの管理方法 ▌諸事情によりStatefulSetではなくDeploymentsを使用 ▌ceph-osdには二重起動を避ける仕組みが存在 ⚫/var/lib/ceph/osd/ceph-<OSD ID>以下のファイルでロック 9 HDD OSD ceph-osd
A ceph-osd B ロック ceph-osd Aにロックを取られているのでアクセス不可
OSDのdeployment 10 … containers: … command: - ceph-osd volumeMounts: -
mountPath: /var/lib/ceph/osd/ceph-0 name: set1-data-0-xfvdg-bridge subPath: ceph-0 …
OSDのdeployment 11 … containers: … command: - ceph-osd volumeMounts: -
mountPath: /var/lib/ceph/osd/ceph-0 name: set1-data-0-xfvdg-bridge subPath: ceph-0 … volumes: … - emptyDir: medium: Memory name: set1-data-0-xfvdg-bridge … コンテナごとに別々の ロックファイルを作るよ!
OSDのdeployment 12 … containers: … command: - ceph-osd volumeMounts: -
mountPath: /var/lib/ceph/osd/ceph-0 name: set1-data-0-xfvdg-bridge subPath: ceph-0 … volumes: … - emptyDir: medium: Memory name: set1-data-0-xfvdg-bridge … もしOSD Podが二重起動すると OSDがブッ壊れるよ!
問題が発生するシナリオの例 1. OSD Pod AがOSDを操作 13 OSD Pod A HDD
OSD ceph-osd ロック A
問題が発生するシナリオの例 1. OSD Pod AがOSDを操作 2. OSD Pod Aがeviction対象になり”Terminating”に。Ceph-osdはまだ動作中 14
OSD Pod A HDD OSD ceph-osd ロック A Terminating
問題が発生するシナリオの例 1. OSD Pod AがOSDを操作 2. OSD Pod Aがeviction対象になり”Terminating”に。Ceph-osdはまだ動作中 3.
新しいOSD Pod Bが同じノードにスケジュールされる 15 OSD Pod A HDD OSD ceph-osd ロック A OSD Pod B ceph-osd Terminating
問題が発生するシナリオの例 1. OSD Pod AがOSDを操作 2. OSD Pod Aがeviction対象になり”Terminating”に。Ceph-osdはまだ動作中 3.
新しいOSD Pod Bが同じノードにスケジュールされる 4. 2つのceph-osdが同じOSDを操作、OSDが壊れる ⚫ それぞれ別ファイルをロックしているので排他制御は機能しない 16 OSD Pod A HDD OSD ceph-osd ロック A OSD Pod B ceph-osd Terminating ロック B
検出経緯 1. OSD Podが存在するノードが慢性的なメモリ不足になっていた 17 node プロセス プロセス プロセス HDD
OSD Ceph-osd メモリが足りませんよ
検出経緯 1. OSD Podが存在するノードが慢性的なメモリ不足になっていた 2. 偶然前述の問題の再現試験のような状況になった ⚫ OOM killerによるプロセスの殺戮 ⚫
Kubeletによるプロセスの再生成 ⚫ メモリ不足によるPod eviction 18 node プロセス OOM Killer なかなかメモリが空かないなあ 殺戮 プロセス プロセス Podをスケジュールしなきゃ & 追い出さなきゃ 再生成 kubelet HDD OSD Ceph-osd
検出経緯 1. OSD Podが存在するノードが慢性的なメモリ不足になっていた 2. 偶然前述の問題の再現試験のような状況になった ⚫ OOM killerによるプロセスの殺戮 ⚫
Kubeletによるプロセスの再生成 ⚫ メモリ不足によるPod eviction 3. OSD Podが二重起動。死 19 node プロセス OOM Killer なかなかメモリが空かないなあ 殺戮 プロセス プロセス 再生成 kubelet HDD OSD Ceph-osd Ceph-osd Podをスケジュールしなきゃ & 追い出さなきゃ
検出してから現在までの流れ 1. CephコミュニティとRookコミュニティに報告 ⚫https://tracker.ceph.com/issues/48036 ⚫https://github.com/rook/rook/issues/6530 2. OSDのログから複数ceph-osdの動作を検出 3. Rookで問題が起きうることを確認 4.
現在はRookの修正検討中 20
まとめ ▌StatefulワークロードにはなるべくStatefulSetを使う ▌アプリのコンテナ化ではロックファイルの共有忘れに注意 ⚫ステートレスワークロードでも起こりうる ▌Rookの問題は今後修正予定 ▌OOM killerは優秀なデバッグツール 21