Upgrade to Pro — share decks privately, control downloads, hide ads and more …

既存のログ監視システムをクラウドっぽく実装してみた

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.
Avatar for tjmtrhs tjmtrhs
February 18, 2026

 既存のログ監視システムをクラウドっぽく実装してみた

ルータやスイッチが出力するsyslogを監視してアラートを発生させるシステムを運用しています。これをGCP Pub/SubやDataflowを用いて実装し直す取り組みを紹介します。

Avatar for tjmtrhs

tjmtrhs

February 18, 2026
Tweet

More Decks by tjmtrhs

Other Decks in Technology

Transcript

  1. © NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 1 既存のログ監視システムを

    クラウドっぽく実装してみた NTT Tech Conference 2026 LT 2026/02/18 @ docomo R&D OPEN LAB ODAIBA & online NTTドコモビジネス 原田和明, 川崎洋平, 田島照久 [email protected]
  2. © NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 2 それなりのNWを運用しています

    業界最大級(たぶん)の検証設備の運営とエンジニア育成, speakerdeck, 2023/03/28
  3. © NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 3 基盤システム運用の監視とsyslog

    Polling (pull, active) Trap (push, passive) log log log log log log messageの例 Jan 21 13:49:12 d01j.akbu mib2d[80865]: SNMP_TRAP_LINK_DOWN: ifIndex 646, ifAdminStatus up(1), ifOperStatus down(2), ifName xe-1/0/9
  4. © NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 4 これまでのシステムと改善の狙い

    ログ保管 パケット ブローカ 異常判定 メンテ 情報DB 1日に100万行 いかないくらい = 平均 10 line/sec 通常は 発生数秒~10秒程度 の遅延
  5. © NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 5 これまでのシステムと改善の狙い

    ログ保管 パケット ブローカ 異常判定 メンテ 情報DB 1日に100万行 いかないくらい = 平均 10 line/sec 通常は 発生数秒~10秒程度 の遅延 「平均」なので波がある。 冗長系切り替え時などでは 数千行が一気に出力される こともある 判定スクリプトのspawnに よりLoadAvgの増加を招き 数十分以上の遅延が発生 遅延による 時刻のずれで 不要な通知発 生 swatch で実装されていて わかりやすいが、全体的な ルールが不明瞭になって メンテ効率は微妙
  6. © NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 6 そうだPub/Subしよう:

    大量メッセージを捌くノウハウ求めて パケット ブローカ syslog-ng Pub/Sub 入力用 トピック Dataflow メッセージを ストリーミング処理 Function + KVS 異常&メンテ判定 メンテ 情報DB Pub/Sub アラート用トピック Pub/Sub 非アラート用トピック Function 通知処理
  7. © NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 7 なぜDataflow?

    ◼ 要件 ⚫ pubsubのsubscriberとして動く ⚫ メッセージを読み、外部APIを叩き、 条件分岐で別topicにpublishできる ⚫ 絶え間なく流れるデータを オーバヘッド少なく処理してほしい ◼ 実装の案 ⚫ Function (Cloud Run) でpubsub SDK使って自前実装 ⚫ Dataflow (Apache Beam) を使う → 後者の方がPaaSっぽいし、周囲の入出力の責務は丸投げできて コア部分のロジックに限定できそう ※実際はGCE (IaaS) にdataflowインスタンスが建ちます
  8. © NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 9 改善されたのか?

    ◼ WIPですが、ちゃんと流れてそうな気配 ⚫ 負荷テストはこれから ◼ 頭を悩ますポイントは増えた ⚫ インスタンスサイズのコスパ • 最小でも月1万円くらい ⚫ dataflowの内部処理で ある程度バッファして処理しているが バッファ=遅延なのでその調整 ⚫ コンポーネントが疎になったので 結合テスト(CI)の実施方法が未知 • 想定するメッセージを都度publishして チェックする方法が有力 ⚫ オートスケールは有効に機能するのか (未検証)