Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
みずほ銀行の2021年大規模システム障害に関する考察
Search
sarrrrry
June 04, 2021
Business
190
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
みずほ銀行の2021年大規模システム障害に関する考察
sarrrrry
June 04, 2021
More Decks by sarrrrry
See All by sarrrrry
点過程の基礎とその周辺
sarrrrry
0
320
CompML : Elementary knowledge for 'Parameter-Free Online Optimization'
sarrrrry
1
140
CompML:PaperReading-PHM-No.1
sarrrrry
0
200
PaperReading-ExplainingKnowledgeDistillationByQuantifyingTheKnowledge
sarrrrry
0
58
Other Decks in Business
See All in Business
kakaopiccoma_engineer_recruitingguide
kakaojapan
2
190
自分を知ることから始まる生存戦略
peacemaker07
1
240
BizDev視点で見る、Snowflake最新動向!/ snowflake-trend
finanori
1
170
ClaudeCode × Hubspot 営業・マーケティングAI段階的成長ロードマップ
nagatsu
0
220
Sotas Company Deck / 会社紹介資料
sotas
0
960
DMM.com コーポレートブック
dmm
2
500k
余白を生むセルフマネジメント/Self-Management That Creates Breathing Room
ikuodanaka
1
2.4k
コーポレートストーリー(新規投資家様向け会社説明資料)
gatechnologies
2
19k
ARI_BXデザイン第2事業ドメイン_事業紹介資料
arid2
0
240
ラッコ株式会社 システム部 採用情報
mayahoney
0
25k
スマートキャンプ株式会社 会社紹介資料 / companydeck
smartcamp
1
4.4k
エイターリンク株式会社 会社紹介資料
aeterelink
0
44k
Featured
See All Featured
Navigating Weather and Climate Data
rabernat
0
230
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
330
We Have a Design System, Now What?
morganepeng
55
8.2k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
Joys of Absence: A Defence of Solitary Play
codingconduct
1
400
Designing for Performance
lara
611
70k
A better future with KSS
kneath
240
18k
RailsConf 2023
tenderlove
30
1.5k
Between Models and Reality
mayunak
4
350
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
370
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
How STYLIGHT went responsive
nonsquared
100
6.2k
Transcript
株式会社みずほ銀行における 大規模システム障害の考察と 東証システム障害との比較 SATO, Ryosuke
目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦
4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ 特に黄色文字の箇所が本題 2
目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦
4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ 3 連続するシステム障害のうち, 1度目の 2 / 28 (日) 事象を中心にして, 概要と事象に分けて紹介する 残り 2〜4 度目の事象は簡単な紹介に限定する
株式会社みずほ銀行における大規模システム障害 【概要】 2021年2〜3月 株式会社みずほ銀行の勘定系基幹システム MINORI を含むシステムで, 約2週間の短期間の内に4度連続して障害が発生した 5000件以上のカードや通帳の取り込みが発生した事や,短期間に障害が連発した事から, 顧客の信頼を大幅に損なう事案となった ①
2 / 28 ② 3 / 3 ③ 3 / 7 ④ 3 / 12 顧客への影響 定期性取引不能: 469件 ATM: 4,318台停止 カード・通帳取込: 5,244件 ATM: 29台停止 カード・通帳取込 宝くじ: 7件不成立 みずほダイレクト取引不能 : 9 件 国内他行向け仕向外為送金 遅延: 263件 被仕向外為送金到着案内遅 延: 761件 直接の原因 定期性データの移行時に 一部メモリ容量オーバーが発生 ネットワーク機器故障による 瞬断 カードローン関連リリース時 のプログラム不良 統合ファイル授受基盤に係る 機器故障+バックアップへの 切り替え不良 影響を受けた 取引種類 ATM みずほダイレクト ATM みずほダイレクト ATM みずほダイレクト 外為等 追記 呼損率: 99% 約3分でバックアップ開始 https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 4
https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 5
2 / 28 発生事案 2021 / 2月下旬〜3月上旬にかけて,1年以上通帳記帳がない口 座に対してデジタル口座に自動切り替える予定だった 2 /
28 (日) に定期預金関連のデータ更新作業を2種類実施 1. 定期預金の積立に関する定例のデータ更新 2. 1年以上記帳が無い顧客口座の 「不稼働」フラグのステータス変更 これにより,定期性基盤のメモリ容量超過で処理が失敗 エラー累積が引き金となり,取引共通基盤内部の, ATM・ダイレクト両処理区画が閉塞した これにより,以下の問題が発生した • 定期性取引不能: 469 件 • ATM停止: 4,318 台 • カード/ 通帳 取込み: 5, 244 件 • 呼損率: 99 % (全体コール数の内,応答出来なかった割合 ) • エラー検知から 7 時間 19 分 原因特定まで https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 6
2 / 28 発生事案 2021 / 2月下旬〜3月上旬にかけて,1年以上通帳記帳がない口 座に対してデジタル口座に自動切り替える予定だった 2 /
28 (日) に定期預金関連のデータ更新作業を2種類実施 1. 定期預金の積立に関する定例のデータ更新 2. 1年以上記帳が無い顧客口座の 「不稼働」フラグのステータス変更 これにより,定期性基盤のメモリ容量超過で処理が失敗 エラー累積が引き金となり,取引共通基盤内部の, ATM・ダイレクト両処理区画が閉塞した これにより,以下の問題が発生した • 定期性取引不能: 469 件 • ATM停止: 4,318 台 • カード/ 通帳 取込み: 5, 244 件 • 呼損率: 99 % (全体コール数の内,応答出来なかった割合 ) • エラー検知から 7 時間 19 分 原因特定まで https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 7
2 / 28 原因 ① システム開発のスケジュールが悪い • 取引量がピークとなる事が多い,月末にリリースを実施 ◦ 「ステータス変更は臨時作業でこれまでやったことはない」[1]
◦ なのに何故月末に強行したのか? → 印紙税が 2021 / 4月 から施行され,1部 200 円/年 [2] → 全 2400 万口座に印紙税が適用されれば 48 億円/年 → 約半数がデジタル口座に移行される目処だった [2, 要出典] → 通帳発行をケチった • 10万件少ない前日の処理は正常に行われた. → 月末リリース でなければ,問題は発生しなかった → 負荷テスト が十分なら問題は発生しなかった • 金融庁の統計(要出典) によれば,大手銀行のITエンジニアの割合が, 米国では30%なのに対し,日本はたったの4%に留まっている [3] 2 / 27 (前日) 2 / 28 ステータス更新 45 万件 45 万件 定例更新 15 万件 25 万件 合計 60 万件 70 万件 [1] 日経XTECH: https://xtech.nikkei.com/atcl/nxt/column/18/00138/030500746/ [2] 朝日新聞digital: https://www.asahi.com/articles/ASP3875X0P37ULFA001.html [3] zakzak: https://www.zakzak.co.jp/soc/news/210418/dom2104180002-n1.html 緊急時の想定・対応不足が浮き彫りとなり, 「システム軽視」と「組織運営」の経営判断が問題視された 8
2 / 28 原因 ① システム開発のスケジュールが悪い • 取引量がピークとなる事が多い,月末にリリースを実施 ◦ 「ステータス変更は臨時作業でこれまでやったことはない」[1]
◦ なのに何故月末に強行したのか? → 印紙税が 2021 / 4月 から施行され,1部 200 円/年 [2] → 全 2400 万口座に印紙税が適用されれば 48 億円/年 → 約半数がデジタル口座に移行される目処だった [2, 要出典] → 通帳発行をケチった • 10万件少ない前日の処理は正常に行われた. → 月末リリース でなければ,問題は発生しなかった → 負荷テスト が十分なら問題は発生しなかった • 金融庁の統計(要出典) によれば,大手銀行のITエンジニアの割合が, 米国では30%なのに対し,日本はたったの4%に留まっている [3] 2 / 27 (前日) 2 / 28 ステータス更新 45 万件 45 万件 定例更新 15 万件 25 万件 合計 60 万件 70 万件 [1] 日経XTECH: https://xtech.nikkei.com/atcl/nxt/column/18/00138/030500746/ [2] 朝日新聞digital: https://www.asahi.com/articles/ASP3875X0P37ULFA001.html [3] zakzak: https://www.zakzak.co.jp/soc/news/210418/dom2104180002-n1.html 緊急時の想定・対応不足が浮き彫りとなり, 「システム軽視」と「組織運営」の経営判断が問題視された 9
【顧客対応関連】 • エラー検知から組織内での展開が不十分 ◦ 警備員出動要請&顧客対応指示が遅い ◦ 原因の特定と復旧着手までが遅い • システムでエラーを検知した後も, ATMへの影響が大規模である事を認知していなかった
• 組織運営に問題がある (後述: 分析) 【システム関連】 • 2019年7月13日に MINORI への完全移行をしたばかり • 安定稼働までの特別人員配置も解除していた. • 制御側の人員をアプリ側に割いていた 2 / 28 原因 ② https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 緊急時の想定・対応不足が浮き彫りとなり, 「システム軽視」と「組織運営」の経営判断が問題視された 10
2 / 28 事案を含む 4 回の事案の原因とおさらい ② 3 / 3
• データセンタ内のネットワーク機器の 物理的故障が発生 • 約 3 分間不安定な状態になり,その後副系に 自動切り替え ③ 3 / 7 • カードローンのプログラム更新 におけるエラー • 詳細不明,カードローンのプログラム不良が総 合口座の取引エラーに波及 • 2/28事案の翌週リリースにも関わらず, テスト不十分かつ本番・開発環境の差異を見 落として事案発生 ④ 3 / 12 • 共有ディスクの物理的故障が発生 • ベンダーによる復旧で約 7 時間 • さらにみずほ側の復旧手順ミス https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 11
https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 12
閑話: Euronet worldwide “Cash machine swallowed your card?” Euronet Worldwide,
Inc. はATMやPOSを含む電子決済を提供する金融機関. 負けを認めろ 耐えろ 海外ではカード取込は珍しい事でも ないという意見もあり, 取込み事案自体を騒ぎ立てるのは 平和な日本特有かもしれない 13
株式会社みずほ銀行における大規模システム障害 - まとめ • 最近のソフトウェア開発において,リリースしてからデバッグというのはよくある風潮であり,ましてや超大規模システムである から,2/28の取込事象が発生した事は,そこまでヒステリックに騒ぐ事ではない. • MINORI の開発自体は非常に有意義なもので,超大規模システムの開発初期という事を考えればエラーも考慮されるべきで ある
• 大きな問題なのは, ◦ 月末にリリースしたというシステム軽視の甘い考えと,事象を連発させたこと ◦ 過去に大規模障害を起こした事で,みずほ =障害という悪印象を顧客に与えながらも,さらに 3度目の障害を発生させたこと 14
目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦
4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ みずほ銀行の対応の良し悪しを判断するため 類似事象にあたる,株式会社日本取引所グループの終日取 引停止事案を紹介する. 発生事象と原因を順に紹介し, 最後にみずほ銀行と比較する 15
類似障害 - JPX (東証) 終日取引停止事案 【発生事象と原因】 • 共有ディスク装置のメモリが故障 • 本来であれば,待機系に自動切り替え
(Failover) のはずが,事象発生時には切り替えに失敗し, 相場情報配信業務や売買監視業務に異常が発生した (みずほ④と類似) • 受付済み注文の取り扱い等で混乱を防ぐため, 終日取引停止とした 両図引用: https://www.jpx.co.jp/corporate/research-study/system-failure/index.html 16 【時系列ごとの発生事象】
類似障害 - JPX (東証) 終日取引停止事案 【切り替えに関する前提知識】 • JPXにおける故障時の自動切り替え方式は2種類ある ◦ 標準テイクオーバー方式
: 生存を知らせる伝聞が途絶した場合, 15秒後に処理の引き継ぎが行われる方式 ◦ 即時テイクオーバー方式 : 相手方装置から機能停止を知らせる電文を受信した場合,即時に処理の引き継ぎが行われる方式 • arrowhead ◦ JPXが運用する,富士通製 株式等売買システムの名称 ◦ 初代: 2010 / 1 ◦ 2代目: 2015 / 9 ◦ 3代目: 2019 / 11 〜 現在 ← 事象発生 【切り替え失敗の原因】 • 自動切り替えの設定が2代目と3代目で異なっていたが,設定を先代を踏襲したまま対応していなかった ◦ 2代目 True: 即時テイクオーバー有効 False: 即時テイクオーバー無効 標準テイクオーバーは, True/False 問わず常に有効 ◦ 3代目 True: 即時テイクオーバー有効 False: 即時テイクオーバー無効に加え,条件付きで 標準テイクオーバーも無効 17 この設定を対応しなかったために,事案が発生した
みずほ銀行とJPXの比較 みずほ銀行 JPX 事象発生から 第三者委員会設置まで 2 / 28 3 /
17 17日 10 / 1 10 / 5 4日 第三者委員会による 調査報告書 (6/4 現在) 無し 11 / 30 約 2 ヶ月 事象発生から エラー箇所特定まで 9:51 17:10 7時間19分 7:04 8:54 1時間50分 対応までの時間 (警備員出動) 11:49 1時間58分 (HPで公表) 8:39 1時間35分 SNS等の反応 * これで三回目だからな。四回目もあるぞ。 * もはや年間恒例行事 * 頭取はちゃんと自分の言葉で話せてて好印象。 * 理路整然と受け答えしていて、見事としか言いよう無い。 * 同じインフラエンジニアとして尊敬しかない * ITリテラシーの低すぎる記者がいますね。 18
目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦
4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ みずほ銀行および, JPXの両システム障害事案に対し, 講義内でご紹介いただいた m-SHELLの分析に挑戦し, さらに2つの独自分析を加えた合計 3 種類の分析を示す 19
みずほ銀行事案に対する分析 - mSHELL分析 m management 経営方針、安全管理など * 心理的安全性の欠如 (後述 -
独自分析②) S Software 手順書やマニュアル、規則 など * 4度目の事案は手順書にミスがあったことが報告されて いる H Hardware 機器や機材、設備、施設の 構造など * システム監視がされていない,稼働していない E Environment 温度や湿度、照度など * 印紙税 24億円の負担を回避したい * COVID-19 によるコールセンター人員削減 (予想) L-L Liveware (当事者) インシデントに関与した本人 * 月末リリースを強行する経営判断に意見できるシステ ム人材がいない * 上申する事が出来ない (予想) 20
みずほ銀行事案に対する分析 - 独自分析① システムのインシデント分析の際,Software が指している対象の不一致が分析の困難さを導いていたため, 独自の区分で分析した P Programming * テストが不十分
* 開発工程の決定甘い H Hardware * システム監視が働いていない * ATMの監視が不十分 E Environment * 印紙税 24億円の負担を回避したい * 日曜に事案発生 * COVID-19 によるコールセンター人員削減 (予想) 手順書やマニュアル、 規則など * 手順書が不十分だった (下記発言と④事案) * 「規則通りの対応で,柔軟さが足りなかった」 (会見) T Team * 心理的安全性の欠如 (後述) * MINORI 人材の強化に課題を感じていた 21
みずほ銀行事案に対する分析 - 独自分析② 会見時系列分析 みずほ銀行 参加者 2 名 時間 2
: 25 : 28 JPX (東証) 参加者 4 名 時間 1 : 37 : 58 22 0:00:00 ~ 0:25:00 質疑開始 0:25:00 0:59:17 ~ 1:01:13 1:30:38 ~ 1:31:55 1:32:33 ~ 1:35:05 1:42:01 ~ 1:43:24 2:23:48 ~ 2:25:18 坂井 社長 宮原 社長 それぞれの色ごとに発言者を意 図しており,両会見の参加者に対 する発言割合を示した. JPXでは専門分野の質問に対し て,担当者がそれぞれ発言した のに対して,みずほでは坂井社 長が話す割合が圧倒的に多かっ た. この事から発言の容易性等の社 風の違いの可能性を示す.
目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦
4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ 23
まとめ • 最近のソフトウェア開発において,リリースしてからデバッグというのはよくある風潮であり,ましてや超大規模システムである から,2/28の取込事象が発生した事は,そこまでヒステリックに騒ぐ事ではない. • MINORI の開発自体は非常に有意義なもので,超大規模システムの開発初期という事を考えればエラーも考慮されるべきで ある • 大きな問題なのは,
◦ 月末にリリースしたというシステム軽視の甘い考えと,事象を連発させたこと ◦ 過去に大規模障害を起こした事で,みずほ =障害という悪印象を顧客に与えながらも,さらに 3度目の障害を発生させたこと • JPXと比較するとみずほ銀行の対応は後手に周り,国民感情に悪い影響を与えている可能性がある • みずほ銀行設立の過去の経緯も考えれば,社風に問題がある事が示唆される • 社風の改善がなければ同様の事案は再度発生すると予想されるが,内部調査から具体的な改正案はまだ出ていない 24