日々の運用で発生するアラート対応は、事象によってエスカレーションや社内の複数チームにまたがる対応が求められます。
LINEとヤフー合併により、様々なサービスを乗せる大規模インフラは更に大規模になりました。
その中でLINEとヤフーのそれぞれのアラートフローがあり、お互いの接続ポイントで障害が発生した際に、フローに沿って円滑に対応できるかの確認は安定したインフラ提供のためにとても重要なポイントになります。そこでアラートフローの有効性とメンバーのフロー理解向上を目的とした訓練を実施しました。
本発表では、この訓練の詳細、訓練を通じて明らかになった課題、そしてそれらを運用にどうフィードバックしたかについてお話しします。