Upgrade to Pro — share decks privately, control downloads, hide ads and more …

マルチプレーンGPUネットワークを実現するシャッフルアーキテクチャの整理と考察

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 マルチプレーンGPUネットワークを実現するシャッフルアーキテクチャの整理と考察

マルチプレーンGPUネットワークを実現するシャッフルアーキテクチャの整理と考察 - Shuffleの基礎原理、配線設計、展開パターン、設計上のトレードオフ

Avatar for Masayuki Kobayashi

Masayuki Kobayashi

March 07, 2026
Tweet

More Decks by Masayuki Kobayashi

Other Decks in Technology

Transcript

  1. 背景: なぜ Shuffle が必要になるのか • 課題: GPUクラスタの大規模化で、 NIC/switch/optics/配線の密度が急増 • 動機:

    スイッチにより多くのエンドポイントを収容し、ネットワークの層を減らしたい • 解決策: High-Radixなスイッチは、より多くのエンドポイントにファンアウトが可能 ◦ 64x1.6T → 1,024x100G, 512x200G, 256x400G (TH6 102.4T) ◦ Switch Fabricに追加の集約層を必要とせずに、よりフラットなトポロジを実現できる ◦ ファンアウトすることで ネットワークのマルチプレーン化 が可能 • ネットワークの層数が少ないことは、以下を意味する ◦ 累積レイテンシ、消費電力、障害ポイントの数が少ない 問題は「論理トポロジ」よりも「それをどう物理配線で実装するか」に帰着する
  2. マルチプレーンネットワークとは • 複数の完全に独立した Clos Fabricで構成されるネットワーク • 各プレーンのデータプレーンと制御プレーンは独立し、それらの間には物理的または論理的な 「Fate Sharing -

    運命共有 」はない • Fate Sharingとは、1つの要素 (スイッチ、リンク、制御プロトコルなど ) の障害の影響が他の要素 に伝播し、連鎖的または広範囲にわたる機能停止につながる可能性がある状況を指す • マルチプレーン設計では、プレーンでハードウェア障害、ソフトウェアバグ、または輻輳イベントが発 生しても、これらの問題は他のプレーンに影響しないことが保証される • つまり、深刻なネットワーク障害であっても、その影響範囲は単一のプレーンに限定される • Multi-Plane または Multi-planar Architecture と呼ばれる
  3. マルチプレーンネットワークの構成 • GPUサーバーのホストライブラリの観点でのマルチパス、レジリエンス向上のためには、 単一NICごとに 複数プレーンに laneを分散させる ことが有効 • 従来は「NIC →

    1 switch」の接続が落ちると代替がなかったが、マルチプレーンでは常に別プレー ンがあるのでワークロードを止めずに継続しやすい 800G NIC Fabric Plane 1 Fabric Plane 2 Fabric Plane 3 Fabric Plane 4 800G NICから独立したファブリックプレーンにある4台のスイッチに接続する例 • サーバの NICごとに接続先プレーンを分けるのではなく、 各NICのポートを laneごとに分ける点に注意 • Rail-Optimized Topologyとは根本的に異なる
  4. マルチプレーンネットワークの構成 • 800G NICでマルチプレーン構成をする場合の選択肢 ◦ 2x400G → Dual-Plane ▪ 2xMPO12

    Opticsなどの使用でshuffleが不要 ◦ 4x200G → Quad-Plane ▪ 200G laneごとに4つのファブリックプレーンに分散 ▪ Shuffleが必要 ◦ 8x100G → Octal-Plane ▪ 100G laneごとに4つのファブリックプレーンに分散 ▪ Shuffleが必要 • 単一のOpticsとCableで分散できない数のプレーンで shuffleが必要になる
  5. マルチプレーンネットワークの本質は NIC • マルチプレーンを期待通りに動作させるためには NICハードウェアと通信ライブラリの両方のサ ポートが必須になる ◦ トラフィックを複数 plane に「spray」する機能

    ◦ 受信側でパケットを集約・再整列して、アプリケーションに in-orderに見せる機能 ◦ プレーン障害時には健全なプレーンへトラフィックが自動的にシフトする機能 など 本資料ではスコープ外(次回以降の内容)
  6. Shuffle Architecture とは何か • Shuffle は単なる breakout cable ではない •

    lane remap + plane 分散 + structured cabling を含む physical architecture • 本質は server-major の束を plane-major に組み替えること 画像引用元 : Shuffling Solutions for AI/ML-GPU Clusters and Modern Data Centers, Corning Optical Communications
  7. Shuffle Architecture とは何か • switch port breakout の都合、NIC port breakout

    の都合、Plane ごとの収容都合に合わせ て、logical channel を別の物理コネクタのグループに載せ替えるのが shuffle • これを工場定義済みの配線で行うのが Shuffle Cable / Shuffle Box Shuffle 前の入力側(server-major) • switch 側で欲しいのは、同じ Plane を集めた束 • 各サーバの各 NIC からは Plane が横並びで出てくるが、 switch 側では同じ Plane を同じポート群に収容したい • そのために、 Server / NIC / Plane の対応を保ったまま、 横並びを縦束へ並べ替えるのが shuffle re-map Shuffle 後の出力側(plane-major) Shuffle / lane re-map
  8. 用語整理 • Shuffle Architecture: lane / sublink 再配置を含む物理配線アーキテクチャ全体 • Shuffle

    Cable: ケーブル内部で remap する固定マップ配線 • Shuffle Box: box / カセット内部で remap する集中変換点 • Structured Cabling: panel / trunk / patch で構造化された配線管理方式 • Polarity: Tx/Rx と fiber position の end-to-end 整合 • Fate Sharing: 共通故障点により一緒に落ちる関係 • Slice: breakout 後の lower-rate 接続片 • Plane: 独立した通信面 / failure domain
  9. Shuffle の前提となる光インターフェース • OSから1ポートに見えたまま受動的な Shuffle Cable/Box だけでは、通常のEthernet通信を成 立させることはできない • それぞれが独立リンクとして

    MAC終端・制御されている必要がある 200G 200G 200G 200G 800G NIC P1 P2 P3 P4 このような構成では通信が成立しない 200G link 200G link 200G link 200G link 800G NIC P1 P2 P3 P4 通信成立には独立リンクで終端する必要がある NIC / MAC / PCS / optics 側が 独立した4リンクとして扱っていないなら それを別々の P1〜P4に配線しても通信は成立しない。 800G Optics 4x200G Optics
  10. Multi-plane Fabric と Shuffle の関係 • 1つの NIC / host

    が複数 plane に接続される • plane ごとに switch / control plane / failure domain を分離する • Shuffle はその plane 分散を物理層で成立させる配線方式
  11. 基本的な 400G 4×4 Shuffle の例 • 1本の 400G (4×100G) MPO12を4方向へ1

    laneずつ分散 • port-major → plane-major への転置 画像引用元 : Shuffling Solutions for AI/ML-GPU Clusters and Modern Data Centers, Corning Optical Communications
  12. 基本的な 400G 2×2 Shuffle の例 • 4×100Gを2×(2×100G) にまとめて2方向へ分散 • 200G単位で扱うことで4×4より接続数を抑えられる

    画像引用元 : Shuffling Solutions for AI/ML-GPU Clusters and Modern Data Centers, Corning Optical Communications
  13. 800G NIC の shuffle 実装例 (Oracle) • 800G NICを4×200Gに分岐し、4 planeのswitchに入れる

    • switch側も800G portを4×200G breakout • 両端のbreakoutを成立させるために shuffle が必要になる 画像引用元 : First Principles: Oracle Acceleron Multiplanar Networking Architecture https://blogs.oracle.com/cloud-infrastructure/first-principles-acceleron-multiplanar-networking
  14. 800G NIC → 4×200G の shuffle 実装解説 • この構成が 100G/lane

    から 200G/lane に変わっただけ 画像引用元 : Shuffling Solutions for AI/ML-GPU Clusters and Modern Data Centers, Corning Optical Communications
  15. 800G NIC → 4×200G の shuffle 実装解説 • スイッチ側も 4-way

    breakout、サーバ側も 4-way breakout すると、そのままでは綺麗につな がらないので、shuffle cable が必要 • breakout が両端にある構成を、現場で 1 本ずつクロス配線せずに済むよう、工場定義済みの束 線と内部 lane re-map で実現するものが Shuffle Cable
  16. 800G NIC → 4×200G の shuffle 実装解説 • 高密度コネクタは物理的には多くのファイバを束ねるが logical

    channelの並びと物理コネクタの 並びは一致しない • そのため logical channel を物理コネクタ間で shuffling する必要がある
  17. 1.6T NIC の shuffle 実装例(PoC) • 1.6T NICを8×200Gに分岐し、8 plane(Octal-Plane)を構成する •

    CPOスイッチに内蔵された Shuffle Boxでの構成が現実的な規模になる 公開不可(関係者限り)
  18. Shuffle Cable と Shuffle Box • Shuffle Cable: 固定マップ済みのケーブル、軽量、追加接続点が少ない •

    Shuffle Box: カセットでの中央集約型、変更が容易、 structured cabling と相性がよい • 選定は変更頻度と loss budget のトレードオフ 画像引用元 : Shuffling Solutions for AI/ML-GPU Clusters and Modern Data Centers, Corning Optical Communications Meshing in AI and Hyperscale Data Centers: Practical Guidance for Evolving Infrastructure Design, AFL
  19. 観点 Shuffle Cable Shuffle Box / Shuffle Module CPOスイッチ内蔵 Shuffle

    re-map を行う 場所 ケーブル内部 box / cassette / module 内部 スイッチ筐体内 / CPOシステム内部 主な目的 server-major → plane-major の固定変換を シンプルに実現 集中変換点を設けて再配線・変更管理をしや すくする multi-ASIC / 高密度 port 群 / 光エンジン群の内部接続を整理し、外部配線も簡素化 する 典型的な適用 範囲 rack内、row内、固定マップの breakout 配線 row / room / ODF 周辺、変更や増設が多い 場所 スイッチ装置内部、特に high-radix / quad-ASIC CPO システム 構成変更のし やすさ 低い。固定マップ前提 高い。patch / cross-connect の変更がしやす い ユーザー視点では低い。装置設計時に固定される 追加接続点 少ない 1段増えやすい 外部では減らせる可能性が高い 挿入損失への 影響 小さめ コネクタ対増加で不利 装置内統合で有利になりやすい 施工・展開 速い。工場定義済みで再現性が高い 中央集約で管理しやすいが、構成はやや大 きい 装置内部に取り込まれるため、外部施工は簡素化しやすい 運用上の見え やすさ 低〜中。中身は固定ケーブルに隠れる 高い。変換点が visible 低い。内部構造はブラックボックス化しやすい スケール時の 利点 同一設計を繰り返しやすい change control と拡張に強い 超高密度・超高 radix実装で特に有効 主な弱点 後から mapping を変えにくい 損失増、部品点数増、物理スペースが必要 ユーザーが内部 mapping を直接制御しにくい。 cluster 全体の外部 shuffle 設計が 不要になるとは限らない 代表的に向く 場面 配線を確定しやすい pod / rack repeat design ODF を使う大規模 structured cabling CPO採用の high-radix switch で、装置内の fiber regrouping を最適化したい場合
  20. Structured Cabling の役割 • Shuffle = 並べ替えの仕組み • Structured Cabling

    = その並べ替えを人間が保守できる形で維持する仕組み • point-to-point ではなく、panel / trunk / patch / ODF で構造化する • plane ごとの可視性、変更管理、障害切り分けがしやすい • Shuffle は、structured cabling の上に載せて初めて運用可能になる
  21. Polarity と lane mapping • Shuffle では「どこにつながるか」だけでなく、「 TxがRxに入るか」「lane 順序が正しいか」まで end-to-end

    で保証しないと通信が成立しない • MPOの key orientation、fiber position、breakout pinout を end-to-end で管理する • Shuffleはlaneを並べ替えるため、polarity管理が特に重要(動作成立の条件)
  22. Shuffle のトレードオフ • メリット ◦ マルチプレーン実装を物理配線でスケーラブルに成立させられる ◦ High-Radix switch と

    breakout を実用的に使える ◦ cable bulk、施工時間、miswiring risk を低減しやすい ◦ プレーン分離による障害局所化と相性がよい • デメリット ◦ 設計・命名・ラベル管理が甘いと運用不能になる ◦ 誤配線や mapping への理解不足が致命傷になりやすい ◦ shuffle box は connector pair 増で挿入損失が増える ◦ トラブルシュートは直結配線より難しい
  23. Fate Sharing と設計上の注意点 • プレーン分散しても、同一 800G optics / same NIC

    port 起点のFate Sharingは残る • ファブリックプレーン側の Fate Sharingは減るが、host port 起点の共通故障点は消えない • 確認事項: plane 数、breakout 粒度、port packing、loss budget、polarity、labeling 200G link 200G link 200G link 200G link 800G NIC P1 P2 P3 P4 4x200G Optics Fate Sharing!!
  24. Shuffle Architecture の構築・運用コスト • Shuffle Architectureは、multi-plane fabricを物理配線として成立させる有力な手法だが、 Fate Sharing をどこまで断ち切るかでコストは大きく変わる

    • switch/plane/control-plane レベルの独立化であれば、 shuffle cable・structured cabling・ 明確な labeling によって比較的現実的に実装できる • 一方、host側の optics、NIC port、line card、電源まで独立させようとすると、部材点数、光モ ジュール数、配線本数、損失設計、保守負荷が急増する • したがって設計では、 fabric 側の障害局所化で十分か、 host 側まで共通故障点を排除したいか を切り分け、可用性向上効果と構築・運用コストの増分を見極める必要がある
  25. CPO Switch 内部の Shuffle Architecture • 近年のCPOスイッチでは、従来は外付け shuffle cable /

    boxが担っていたfiber regrouping / re-mapの一部を、スイッチ内部の integrated fiber shuffleとして取り込む例が現れている • これにより、装置内部の高密度光接続、 multi-ASIC 間の port grouping、High-Radix port fanout を space / power efficient に実装しやすくなる • 一方で、cluster 全体の server-major → plane-major 再配置まで完全に不要になるわけでは なく、外部 structured cabling 側の設計は依然重要である 画像引用元 : Scaling AI Factories with Co-Packaged Optics for Better Power Efficiency https://developer.nvidia.com/blog/scaling-ai-factories-with-co-packaged-optics-for-b etter-power-efficiency
  26. 考察 • Shuffleの価値の本質は規模そのものより、 配線の複雑度が人手管理を超えるかどうか にある • Shuffleが最も強く効くのは 高密度・高breakout・高変更頻度 が重なる規模 ◦

    その点でハイパースケーラーでの導入が進んでいる ◦ かなり小さなGPUクラスタでは過剰 → 設計・ラベル・極性管理の負担の方が大きい • multi-planeとshuffleは可用性を改善するが、 host 側のFate Sharingを完全に消すわけでは ない ◦ 中規模クラスタで採用を検討する際は、「本当に欲しいのは 2-tier 化による低遅延・低電力 なのか」「運用上ほしいのは plane 単位の blast radius 縮小なのか」「host 側まで完全分 離したいのか」を切り分けるべきである ◦ この切り分けが曖昧だと、コストだけ高い「半端な multi-plane」 になりやすい
  27. 議論ポイント • アーキテクチャ / トポロジ観点 ◦ そもそも Shuffle を入れる目的は何か。 multi-plane

    実装、high-radix 活用、配線削減、 工期短縮、運用標準化のどれが主目的なのか ◦ 何 plane にするか。4 plane / 8 plane など、必要な独立性とポート消費のバランスをどう 取るか ◦ 細粒度分散はどうするか。 200G単位か100G単位かなど、分散性・実装のしやすさ・接続先 数のトレードオフ ◦ rail / plane を厳密に保つか、部分的に混ぜるか。 rail-optimized topology と shuffle の整合をどこまで取るか
  28. 議論ポイント • 物理層 / 配線観点 ◦ どのコネクタ体系を使うか。 MPO-12、MPO-16、MMC などで実装容易性や将来世代の適合 性が変わる

    ◦ Shuffle Cable にするか、Shuffle Box にするか。固定マップを優先するか、中央集約で変 更しやすさを取るか ◦ structured cabling をどこまで入れるか ◦ polarity を end-to-end でどう管理するか。Tx/Rx 整合を、panel / trunk / breakout / shuffle を跨いで保証できるか ◦ fiber position / pin numbering の基準をどう固定するか。 MPO の key orientation と numbering 解釈の統一が必要
  29. 議論ポイント • 性能 / 拡張性観点 ◦ 将来世代への移行性をどう見るか。 400G→800G→1.6T で同じ fiber

    plant を活かせるか ◦ クラスタ増設時に再設計を避けられるか。 Shuffle は repeatable deployment に強い が、最初のグルーピング設計を誤ると将来の増設が苦しくなる • 信頼性 / Fate Sharing 観点 ◦ どこまで独立させたいか。 plane / switch / control-plane までの独立で十分か、 host port / optics まで切り離したいか ◦ NIC側の共通故障点を許容するか。同じ 800G opticsやNICポートを4×200Gに分けて複数 プレーンに入れても、その opticsが壊れればまとめて落ちる
  30. 議論ポイント • 運用 / トラブルシュート観点 ◦ 命名規則と labeling をどう決めるか。server /

    NIC / plane / port / slice のどの粒度ま でラベルを振るか ◦ 作業者教育の難易度をどう見るか。 Shuffle は見た目の直感に反する配線になるため、運 用チーム教育が必要 • コスト / 工期観点 ◦ 初期コストと運用コストのどちらを重視するか。 fixed shuffle cableは初期設計依存が強い が、導入は速い。box は部材が増えるが変更作業に強い ◦ どの規模から採用を正当化できるか。配線複雑度が人手管理を超えたときに効く技術かどう かを見極める