ステートフルなアプリケーションのダウンタイムを 10 秒以下にすることを目指して

ステートフルなアプリケーションのダウンタイムを 10 秒以下にすることを目指して © 2021 TIS Inc.
1 / 39

私は何者︖ 根来和輝 Negoro Kazuki TIS 株式会社テクノロジー&エンジニアリングセンターミッション
⾼可用システムを安価なインフラで課外活動 Akka 実践バイブル執筆 Scala Matsuri 登壇 @negokaz negokaz © 2021 TIS Inc. 2 / 39

Lerna Stack ⾼可用性と⾼スループットを実現するソフトウェアスタック⾃⼰修復可能なアーキテクチャにより高可用性
を実現 Event Sourcing を用いたロックフリーな永続化方式により高スループットを実現 © 2021 TIS Inc. 3 / 39

稼働率 99.9999% を実現できるか︖ キャッシュレス決済などミッションクリティカルな業務で要求される可用性許
容できる年間停止時間は 31.5 秒従来、専用のハードウェアを搭載した高価なサーバーを用意して実現してきた稼働率 © 2021 TIS Inc. 4 / 39

稼働率 99.9999% を実現できるか︖ キャッシュレス決済などミッションクリティカルな業務で要求される可用性許
容できる年間停止時間は 31.5 秒従来、専用のハードウェアを搭載した高価なサーバーを用意して実現してきた稼働率当時の Lerna では難しいことが明らかに © 2021 TIS Inc. 5 / 39

Lerna Stack が直⾯した稼働率の限界レイヤー障害種別ダウンタイムネットワーク
ネットワーク分断 ~20s Keepalived ノード停止 ~ 5s HAProxy ノード停止 ~ 5s アプリ（Akka）ノード停止 ~15s Cassandra ノード停止 0s MariaDB（Galera）ノード停止 ~ 2s © 2021 TIS Inc. 6 / 39

Lerna Stack が直⾯した稼働率の限界レイヤー障害種別ダウンタイムネットワーク
ネットワーク分断 ~20s Keepalived ノード停止 ~ 5s HAProxy ノード停止 ~ 5s アプリ（Akka）ノード停止 ~15s Cassandra ノード停止 0s MariaDB（Galera）ノード停止 ~ 2s © 2021 TIS Inc. 稼働率 99.999% （年間 5.26 分以下の停止）が限界 7 / 39

アプリの MTTR を10 秒以下にしたいただし、ターゲットとする業務領域では強整合性が求
められる結果整合性で問題なければ Akka の Replicated Event Sourcing という選択肢がある © 2021 TIS Inc. MTTR: mean time to recovery（平均復旧時間） Replicated Event Sourcing • Akka Documentation 8 / 39

ダウンタイムの原因は何なのか︖ 強整合性を保障しながらスケーラブルな Event Sourcing を実現
するために Lerna Stack では Akka Persistence Akka Cluster Sharding を組み合わせて使う © 2021 TIS Inc. 9 / 39

ダウンタイムの原因は何なのか︖ 強整合性を保障しながらスケーラブルな Event Sourcing を実現
するために Lerna Stack では Akka Persistence Akka Cluster Sharding を組み合わせて使うこの組み合わせでネットワーク分断障害のフェイルオーバーを考える © 2021 TIS Inc. 10 / 39

ネットワーク分断障害の解決方法 Split Brain Resolver を使うそれぞれの側が到達できないノードを確認し、
停⽌すると判定したほうが自らをシャットダウンする © 2021 TIS Inc. これは keep-majority の例（多数派を維持する） 11 / 39

フェイルオーバーまでの流れ Akka Cluster Sharding がフェイルオーバーするまでの流れ（Split Brain Resolver
を利用した場合） © 2021 TIS Inc. 12 / 39

フェイルオーバーまでの流れ Akka Cluster Sharding がフェイルオーバーするまでの流れ（Split Brain Resolver
を利用した場合） © 2021 TIS Inc. 13 / 39

さらに伸びる合意形成のための時間合意形成のための時間はノード数に合わせて⻑くとることが推奨されている cluster size
stable-after + down-removal- margin 5 14s 10 20s 50 26s 100 40s © 2021 TIS Inc. Split Brain Resolver • Akka Documentation 14 / 39

Split Brain Resolver がなぜ必要か強整合性（一貫性）を維持するため
ネットワーク分断時に無条件で Entity を回復させると、同じ Entity が複数のノードに存在する状態になり一貫性が損なわれる可能性がある © 2021 TIS Inc. 15 / 39

Split Brain Resolver がなぜ必要かステートフルな「口座 A」の Entity が 2
箇所で起動すると… © 2021 TIS Inc. 16 / 39

ネットワーク分断とノード停⽌ネットワーク分断とノード停⽌は区別できないノード同⼠は定期的に相互にヘルスチェックを行って
応答があればノードが生きているとみなす © 2021 TIS Inc. 17 / 39

ダウンタイムを減らすには一貫性の保証を Split Brain Resolver に頼らない Entity
を複製しておきリカバリ時の IO を不要に © 2021 TIS Inc. 20 / 39

どうやってそれを実現するのか︖ 分散合意アルゴリズム Raft 一貫性のあるステートマシンの複製を実現するアルゴリズム
© 2021 TIS Inc. 21 / 39

どうやってそれを実現するのか︖ 一貫性の保証を Split Brain Resolver に頼らない ©
2021 TIS Inc. 22 / 39

どうやってそれを実現するのか︖ 一貫性の保証を Split Brain Resolver に頼らない Raft
が複数ノードに複製された Entity の一貫性を保証 © 2021 TIS Inc. 23 / 39

Raft の適用効果 - フェイルオーバー時 © 2021 TIS Inc.
27 / 39

ダウンタイムを計測してみた目標のダウンタイム10 秒以下を達成できたのか？達成！！！ 🎉 レイヤー
障害種別ダウンタイムネットワークネットワーク分断 8.0s アプリ（Akka）ノード停止 6.0s © 2021 TIS Inc. 32 / 39

API Akka の既存ユーザーが実装しやすいよう Akka Classic Persistence と似た
API を提供 class CountActor extends ReplicationActor[Int] { private[this] var count: Int = 0 ... // 複製の中で代表者だけが実行する override def receiveCommand: Receive = { case CountUp(_, amount) => replicate(Incremented(amount)) { event => count = count + event.amount } // 代表者以外の複製が実行する // ただし、代表者においても起動直後は状態を復元するために呼ばれる override def receiveReplica: Receive = { case Incremented(amount) => count = count + amount ... } } © 2021 TIS Inc. 34 / 39

API Raft のログコンパクションのため Actor の状態はスナップショットとして自動的に永続化される
class CountActor extends ReplicationActor[Int] { private[this] var count: Int = 0 // 現在の"状態"を返す override def currentState: Int = count override def receiveCommand: Receive = { case CountUp(_, amount) => replicate(Incremented(amount)) { event => count = count + event.amount } override def receiveReplica: Receive = { case Incremented(amount) => count = count + amount // Actor の復元時、最後に保存した "currentState" を最初に適用 case SnapshotOffer(snapshot: Int) => count = snapshot } } © 2021 TIS Inc. 35 / 39

Akka 公式プロダクトとの⽐較一貫性リカバリタイムリソース消費 Replicated Event Sourcing 結
果整合性 0s - Akka Cluster Sharding 強整合性 19s 以上 ※1 - Akka Entity Replication 強整合性 10s 以下大 © 2021 TIS Inc. ※1: Akka 公式の推奨値で構成した場合 36 / 39

ステートフルなアプリケーション のダウンタイムを 10 秒以下 にすることを目指して

ステートフルなアプリケーション のダウンタイムを 10 秒以下 にすることを目指して

More Decks by Kazuki Negoro

Other Decks in Programming

Featured

Transcript

ステートフルなアプリケーションのダウンタイムを 10 秒以下にすることを目指して

ステートフルなアプリケーションのダウンタイムを 10 秒以下にすることを目指して