Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SONiCの統計情報を取得したい

 SONiCの統計情報を取得したい

SONiCの統計情報を取得したい

三井情報株式会社
芹田大輔、赤瀬翔太

SONiC Workshop Japan 2026
https://sonic.connpass.com/event/385386/

Avatar for SONiC Users Group Japan

SONiC Users Group Japan

June 19, 2026

More Decks by SONiC Users Group Japan

Other Decks in Technology

Transcript

  1. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    部署: 2026年6月19日 SONiCの統計情報を取得したい
  2. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    自己紹介 2 芹田 大輔  三井情報株式会社 ◼ イノベーション推進部 ◼ 2001年~ ◼ ITインフラ関連の研究開発 L2/L3スイッチ、OSSのネットワークOS  出身:秋田県  その他:猫とカメとトカゲがいます
  3. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    自己紹介 3 PROFILE 翔 赤瀬 翔太 @akase-shota ・ あかせ しょうた + フォロー 三井情報株式会社 | イノベーション推進部 SONiCの検証・運用と、既存監視基盤へのSONiC監視の組み込みに取り組んでいます。 #ネットワーク #SONiC #ゲーム #食べ歩き #散歩 #睡眠 #宮崎県 PINNED 週末のトリセツ 普段はゲームをたくさんしているインドア派。たまに気分転換の散歩に出かけたり、知り合いと美 味しいもの巡りをしたりして充電しています。 #ネットワーク #SONiC #ゲーム #食べ歩き #散歩 #宮崎県
  4. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    ネットワークの概要 5 ・2024年2月からサービス提供開始 ・創薬支援のサービスを提供するネットワーク 当社はサービスそのものではなく、SONiCやサーバ基盤等の構築運用をサポート Spine Spine Leaf Leaf Leaf Leaf Spine Spine Leaf Leaf Leaf Leaf Leaf Leaf GPUサーバ VM基盤 コンテナ基盤 NFS/Lustre ストレージ VPN ファイアウォール インターネット User Fabric 100GbE GPU Fabric 400GbE L2VNI、L3VNI、Multihoming、SAG、マルチテナンシー、ロスレス、等
  5. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    統計情報を取りたいワケ 6 障害が短期間に数回発生 • I2C HANG • ARP解決失敗(極めて稀) • AOC故障 AOC故障についてメーカに協力を仰ぎつつ調査 ➢ 障害になる前に前兆の様な挙動を確認 ➢ 見るべき情報も把握 ➢ 延々とスイッチのログを見続けること 即判断が難しい AOC(active optical cable)
  6. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    統計情報を取りたいワケ 7 ツールを使うことで • 挙動に関わる統計情報を定期的に取得 • アラーム連携やPort Shutdown自動化 • 視覚化 予兆検知やふるまい検知みたいで素敵な感じがする 他の事象へのサンプルにもなるはず 実装へ!
  7. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    ご参考:AOCの障害内容 8 ◆根本原因 光レベル低下 ◆挙動 • Link-Flap(Up/Downを繰り返す) ⇒ Link Down • Error Counterの上昇 ⇒ Link Down • Link Down後、抜き差しで回復するパターンもあり(数日後Downしてしまった。。。) ◆もう少し挙動を追跡 • 延々とログを取得し続けるマクロを適応 • 対象:抜き差しで回復したポート • 結果:光レベル(複数LANE)のうち1つが突然低下 光レベル低下のタイミングでError Counterが上昇し始めることもある 光レベルが低下してから半日~1日ほどで数回のLink Down/UPが発生 更にそこから半日程度でLink Down
  8. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    メトリクス取得構成 10 SONiC装置の状態を時系列で見るために、4つのツールを役割分担で組み合わせている。 生データ メトリ クス メトリ クス ① SONiC装置 役割 監視の対象 ポート/温度/ FAN/光モジュー ルなどの状態を保 持。 形式:統計情報 (生データ) ② Exporter 役割 翻訳役 装置から取った生 データを、 Prometheusが読 める形(メトリク ス)に変換。 ③ Prometheus 役割 データの貯蔵庫 メトリクスを時系 列で蓄積。「い つ・どんな値だっ たか」を後から振 り返れる。 • OSS ④ Grafana 役割 見える化の画面 Prometheusに溜 まったデータをグ ラフ・ダッシュ ボードで可視化。 • OSS
  9. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    生データとメトリクスの違い / なぜこの組み合わせ? 11 装置から取れる「生データ」を、扱いやすい「メトリクス」に変換して蓄積する。 「統計情報(生データ)」と「メトリクス」の違い 統計情報(生データ) 装置から取った「その瞬間の値そのま ま」。コマンドを叩いた時の出力に近い、 生の数値。 例:ポートのカウンタ値、温度センサの 数字 Exporter で加工 メトリクス 時系列で蓄積・可視化しやすい形に加工 した値。「いつ/どこの/どんな値か」 が一発で分かる。 例:時刻・ラベル付きで並べて比較でき る形 なぜこの組み合わせ? • 他のサーバ監視で既に運用実績あり。 SONiC専用に新規構築せず、既存の監視枠組みに「載せる」ことで、統計情報の集約や早期導入が可能。 • 生データのままだと時系列で扱いにくい。 Exporterでメトリクスに変換して蓄積・可視化する。
  10. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    取得方式の検証経緯と今後の方針 12 まずsonic-exporterを試したけど光レベルが取れず、暫定でsonic-cli-exporterに切替えた。本命は gNMIベースのExporterで、これから検証していきたい。 ① sonic-exporter 装置上で稼働(最初に試した) ✕ 断念 [SONiC装置] └ exporter 結果 一番欲しかった光レベル(RX Power)が取れなかった ② sonic-cli-exporter show結果をパース(自作) ▲ 現在の運用 [別ホスト] → show実行 → parse 現状 光レベル・エラー・状態は取れ る。ただCLI出力に依存してい るので格好悪い。。。 ③ gNMIベースのExporter 別ホストからgNMI/gRPCで取得 ◎ 本命候補(次に検証) [別ホスト] → gNMI → [SONiC] 次の検証 構造化データで取れるので、本 運用はこっちに寄せたい 候補:gNMIc / gtexporter 【リポジトリ】 ・sonic-exporter(①):https://github.com/vinted/sonic-exporter ・gtexporter(③の候補):https://github.com/automixer/gtexporter
  11. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    GrafanaでAOC劣化の兆候を見てみた① 13 ログだけだと追いにくい「光レベル低下 → エラー増加、Link-Flap」の順序が、時系列で並べると見 えてきた。 表示しているメトリクス:sonic_optics_rx_power_dbm 縦軸:受光レベル[dBm]、横軸:時間、系列:装置×ポート×Lane(1~4) 見えてきたこと(下図:実際の障害ポートのRX Power) ・通常時は各Laneが1.0~2.0 dBm前後で安定 ・劣化の兆候としては、複数Laneのうち一部だけが先に落ちることがあった(図中央のステップ状の下 がり方) ・その後 Error Counterが上がったり、Link-FlapやDownにつながるケースもあった 赤枠部分を次スライドで拡大
  12. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    GrafanaでAOC劣化の兆候を見てみた② 14
  13. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    Grafana画面① 15 全ポートのUP/DOWN状態と、受光レベル(RX Power)の時系列を一画面で見られるようにした。
  14. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    Grafana画面② 16 ハードウェア側の健全性(FAN・PSU・温度)も、同じダッシュボードで見られるようにした。
  15. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    アラームから運用アクションまで考えてみた 17 いきなり全部を自動化するのは難しいので、ダッシュボードに集約 → 通知 → 判断の手順化 → 限定的 に自動化、の順で運用に入れていきたい。 収集 status/errors/ optics 検知 閾値・変化率 通知 Grafana/Alert manager 判断 影響確認・交換 準備 実行 Admin Shutdown/切替 Grafanaダッシュボードに集約:ポートステータス、RX-TX Errors、光レベル(RX Power)、FAN、PSU、温度 これから詰めたいところ 閾値と誤検知:光レベルの落ち幅の考慮(段階的に落ちるケース、一気に落ちるケース) メンテナンス作業、etc 自動化 :最初は通知と手順化だけにとどめて、安定後に対象ポートを絞ってAdmin Shutdownも検討したい 戻し手順:自動化するなら、復旧確認や手動解除の手順もセットで用意しておきたい
  16. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    まとめ:SONiC装置の状態を可視化し、先回り運用の基盤を作れた 18 これまでログの「起きた事実」しか追えなかった運用が、メトリクスで「起きるまでの変化」まで見 える運用になった。 ① 取得 その場の値しか残らなかった → status/errors/optics を時系列で蓄 積し、振り返れるようになった ② 可視化 ログに出ない劣化の兆候を、 Grafanaで可視化できるようになっ た ③ 運用 障害を追いかける運用から、変化を 見て先回りで気づける運用に変わっ た 大手メーカ製NW機器と同等以上にできたこと ・統合管理装置やオーケストレータが提供する「予兆検知」に近いことを、自前の監視で実現できた → 特定メーカの専用機器に頼らずに、AOC劣化の予兆検知まで到達できた SONiC × OSS ならではの強み ・実運用で起きた事象を、そのまま監視ルールに落とし込める(OSSの自由度) ・欲しい機能だけを自前で作れるので、自分たちの環境に合わせて最適化できる 今後:取得方式の gNMI 化、判断手順の標準化、自動化を段階的に進める → さらに、蓄積したメトリクスを活かし、AIによる異常検知・自動化(予兆判断)の高度化にも取り組む
  17. Copyright 2026 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved.

    今後の展望:AI活用による障害検知・自動化 19 今回つくった「時系列メトリクスの蓄積」を土台に、AIを使った障害検知・自動化の高度化を狙う。 ① AIによる障害検知 ・閾値では拾いにくい複雑な前兆や、片Laneだ けの紛らわしい変動を、異常検知(「いつもと 違う動き」の学習)で捉える ・人が気づく前に、より早く・正確に検知でき る可能性 ② AIによる自動化・予測 ・検知~実行の「判断」(閾値調整・誤検知の 切り分け)をAIが補助 ・将来は「あと半日ほどでDownしそう」という 予測まで踏み込む ※ まだ構想段階。まずは質のいいデータを溜めることが第一歩で、その土台は今回できた。ここから段 階的に検証していく。