Upgrade to Pro — share decks privately, control downloads, hide ads and more …

KDDIの社長会見、何が素晴らしかったか振り返ろう

__kaname__
October 14, 2022

 KDDIの社長会見、何が素晴らしかったか振り返ろう

2022.10.14 JANOG50+ Lightning Talk

7/2の大規模障害を受けて開催されたKDDIの社長会見は高く評価されているが、特にJANOGの皆様にとっては、障害と隣合わせだからこそ感じたことがあったのではないか?
JANOG ML/slackにおいてアンケートを実施した。
大規模障害および会見の概要を振り返り、業界として参考にできるところを探ってみたい。

__kaname__

October 14, 2022
Tweet

More Decks by __kaname__

Other Decks in Technology

Transcript

  1. (参考)KDDIの通信障害についてまとめてみた (piyolog)
 日付 時間 事象および対処 2022年 7月2日 1時35分 障害発生 -

    メンテナンス作業においてルータの経路誤設定により通信断が発生(約 15分間) 1時50分 - 作業の切り戻しを行うも位置登録要求の再送が大量に発生 2時 事故対策本部を立ち上げ - VoLTE交換機の輻輳、加入者 DBの輻輳、および加入者 DBのデータ不一致が連鎖的に発生し、通信しづらい状況が継続 2時52分 Webサイトに障害情報を掲載 以降 - 設備への負荷軽減を目的に流量制御およびデータ不一致修正を実施するものの、負荷が十分に軽減されない状況が継続 夕刻頃 総務省よりリエゾンとして審議官を KDDIへ派遣 7月3日 11時頃 西日本エリアの復旧作業を終了 社長会見 17時半頃 東日本エリアの復旧作業を終了 7月4日 12時頃 - 不要な過剰信号送出の原因となった VoLTE交換機を特定し、切り離しを実施 15時00分 - 音声通話・データ通信とも前週比同等まで回復していることを確認 完全復旧(61時間25分) 7月5日 15時36分 完全復旧を発表 7月28日 総務省へ事故報告書を提出 7月29日 利用者への対応、再発防止策について記者会見 ニュースリリース 2022年7月2日に発生した通信障害について 時系列
  2. 会見の流れ 代表取締役社長:髙橋誠 / 取締役執行役員専務技術統括本部長:吉村和幸 1. (冒頭)お客様へのお詫び 2. 通信障害の概要とお客様影響について a. 通信障害の概要(発生日時、VoLTE交換機の輻輳、音声・データ通信への影響

    ) b. 影響回線数の概要(スマートフォン・携帯電話、MVNO、IoT回線等) c. 法人のお客様への影響(物流、自動車、行政、銀行、交通 ) 3. 発生事象と原因 a. 事象概要1: メンテナンス作業においてルータの経路誤設定により音声トラヒックの通信断が発生(約 15分間) b. 事象概要2: ルート変更の切り戻しを行うもアクセス集中により通信しづらい状況が継続。輻輳継続 中。 c. 障害対応の時系列 d. 設備構成図 e. 略語集 4. (再度)お詫び a. 全力で復旧作業をすることと、今後再発防止策を検討することに言及 5. 質疑応答(約100分) (約14分)
  3. 会見を視聴して感じたよかった点 • 社長が技術的にわかって質問に答えていた点 ◦ 障害事象を自ら説明 ◦ iPhoneとAndroidの端末の挙動差にも言及 • 確定でないことは確定でないと言える点 ◦

    技術的な詳細だけでなく、補償のことなどについても • 批判を真摯に受け止めた上で復旧に全力を注ぐと答えた点 • 障害の途中でも顧客のために会見を開いた点 • auショップやカスタマーサービスセンターに来ている顧客からの声について も真摯に受け止めていると答えた点
  4. 社長の会見内容について、こうすればより良かったと思うことはありま すか?どうすればより良くなったか提言があれば教えてください エンジニア外の方からは話が難しい・・そんな話より保証はどうなんだといった報道をみたりしたのでそ ういう方々への配慮もあればなおよかったのかなと思いました。 ユーザー目線でサービスが普段通りに使えるようになるタイミングについて、もう少し丁寧に説明する 必要があったように思う。 障害発端のルータOSアップグレード作業について、機器の不具合と言っていましたが、実際には ヒューマンエラーであり、KDDIの明らかな過失を隠蔽していると感じました。ヒューマンエラーというこ とは最初から明らかであったので、ヒューマンエラーと最初から言って欲しかったです。隠蔽した結果、 1回目の記者会見の質問でヒューマンエラーということを婉曲的に言い、

    2回目の記者会見で手順書の 版数誤りだとわかり、結局手順書の何が原因だったか記者会見では分からず、おそらく世間には 10月 5日の総務省からの報告書で初めて知り得ました。騒がれている間の隠蔽は世間での印象は良いで すが、KDDI内ではヒューマンエラーを起こすとめんどくさいことになる社内風土だから問題を隠蔽する のではないかと邪推をしてしまいます。
  5. 技術的観点で、会見で説明された今回の障害やその長期化の原因に 対して、コメントや提言があれば教えてください 緊急時ローミングはどうなるのか気になるところです 交換器の台数など、非常に余裕をもって準備していた事は理解できましたが、それでも問題が発生、 長期化したということは、設備構成 or 設計に問題があるのではと感じました(分散するしかない? 分 散方法が不完全) 政府主導で値下げ要求をしているので、品質が落ちるのはしょうがないのではないか?

    耐障害性は人員、機器等に余裕をもたせる必要があるが、モバイルキャリアに余裕がなくなっている。 自動化とか標準化に名を借りた、利益追求のためのエンジニアの人減らし(原価削減)でないことを 願っています。 パケットコアではセッション同時接続の負荷による障害が KDDIでも他社でも過去にあり、対策してきた のに想定外の事象で通信影響が出てしまい、パケットコアは難しいと改めて感じました。
  6. 今回の会見での知見は、同じネットワーク業界としてどのように今後に 活かせるでしょうか?自由に考えをお聞かせください 今回の件についてもそうですが、 CloudFlare社のような障害が発生した直後に、組織トップ のエンジ ニアが障害の詳細をブログとして公開する、というやり方もとても素晴らしく尊敬できました。 「そもそも障害に関して記者会見が本当に必要なのか」は甚だ疑問ですが、一方でそういったブログ等 での詳細情報の公開は、むしろ障害に関するネガティブコメントを吹き飛ばすくらいの良い効果がある のではないか(エンジニアがそのサービスをより好きになる、その企業の採用につながる、など )と感じ

    ています。 この点は、企業のSNS戦略やマーケティング戦略にも通じるポイントかもしれません。 ネットワーク業界と言う狭い領域では無く「 IT業界」として経営層・管理者層の技術的リテラシが求めら れる。7Payやみずほ銀行の事故報告会見の様な無様な会見は二度とごめんである。あれを繰り返し てしまうと日本企業文化と言う部分で社内若手のモチベーションが下がり有望人材が外資へ流出して しまう原因になりかねない。 今回に限らずセキュリティ事故だったり障害だったりでの会見は、評価をあげるチャンスでもあるとかな り前から思ってます。