Upgrade to Pro — share decks privately, control downloads, hide ads and more …

技術の総合格闘技!?AIインフラの現在と未来。

Avatar for ebiken ebiken PRO
November 07, 2025

 技術の総合格闘技!?AIインフラの現在と未来。

2025-11-07 ONIC 2025 @軽井沢大賀ホール
https://www.onic.jp/program-detail/#s_07

AIインフラ(ネットワーク)の現状を解説し、新たな要求に答えるために検討・仕様策定が進められている技術を Scale Out / Scale Up / Scale Across の観点から解説。

Keywords: RoCEv2, PFC, ECN, DLB, Dynamic Load Balancing, Ultra Ethernet, UEC, UET, Ethernet Scale Up Network, ESUN, Scale Up Ethernet, SUE

Avatar for ebiken

ebiken PRO

November 07, 2025
Tweet

More Decks by ebiken

Other Decks in Technology

Transcript

  1. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜 Kentaro Ebisawa| Arrcus, Inc. 2025-11-07 ONIC

    2025 @軽井沢大賀ホール 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 0
  2. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 1

    技術の総合格闘技!?AIインフラの現在と未来。 15:30 ~ 16:30 https://www.onic.jp/program-detail/#s_07 生成AIを中心としたAIサービスは、今やハイパースケーラーのみならず幅広い企業にとって 不可欠な技術となっています。 その基盤を支えるAIインフラは、学習(Training)においては 数万から数十万規模のGPUを連携させる必要があり、常に進化を続けています。 一方で、コーディングエージェントなどの技術者向けサービスだけでなく、一般消費者がお悩 み相談に利用するなど、様々な ”AIサービス” が急速に普及しており、 高速な推論 (Inference)の重要性も高まりつつあります。 また、GPUaaSを含むサービス提供事業者、企 業内での利用、など、ビジネスモデルや利用主体によって、ハイパースケーラーとは異なる 課題への対応が求められています。 これらのニーズを満たすシステムを構築・運用するためには、急速に進歩するハードウェア やソフトウェアを俯瞰的に理解し、最適な技術・設計・製品を選択する力が不可欠です。 本講演では、現在のAIインフラを構成する技術と課題、そして将来に向け提案されている技 術などを紹介し、我々が今後どのような視点でAIインフラ技術に向き合うべきかを議論します。 キーワード: AI, RoCE, GPU, UEC Arrcus, Inc. 海老澤 健太郎 ONIC Japan 2025 @軽井沢大賀ホール
  3. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 2

    Research & Support Engineer Netmarks Mar 1998 ~ Jun 2001 Regional manager, Global Support Center Network Appliance Jul 2001 ~ Dec 2006 Director of Service Development Operation SGI Japan Feb 2007 ~ Sep 2008 • Product Intro and Support for Operators • Data Center Operation (energy efficiency) • Technical Team Management Network (Enterprise / Telecom / ISP) ATM, VPN(IPsec), xDSL, MPLS Content Delivery Network & Storage Web/Streaming Cache & LB, NFS/SAN Data Center & SaaS (MEX/SGI) Energy Efficiency, DesktopVPN (SaaS) ~10 years Senior Product Manager Sable Networks Apr 2008 ~ Nov 2010 Solution Architect Parallels Dec 2010 ~ Mar 2014 VP of Technology Riava Jul 2014 ~ Sep 2015 Principal Engineer Lumina Networks Nov 2018 ~ Aug 2020 Co-Founder, CTO Ponto Networks Dec 2015 ~ Jun 2018 Network Automation SDN Controller, Orchestrator OpenFlow, FPGA, WhiteBox NOS Switch Design & Development Flow Router, IPv6/v4 Translation (nat64) Service Automation & Container Operation/Business Support System • Product Design and Development • Management and Board member of Startup Companies • Support Japan Market Entry • Technical Consulting / Support • Open-Source Community 10~20 years Lagopus OF Switch Kentaro Ebisawa(海老澤 健太郎) https://www.linkedin.com/in/ebiken/ Principal Researcher TOYOTA Motor Corp. Nov 2016 ~ Dec 2023 Network Infra for Connected Cars Research Professor NTT Ltd. Dec 2020 ~ Nov 2023 Operator Network Technology TOYOTA InfoTechnology (Nov 2016 ~ Mar 2019) Merged to TOYOTA Mortor Corp on Mar 2019 ~25 years Principal Engineer | Arrcus, Inc. Jan 2024 ~ current Virtualization of Data Plane
  4. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 3

    エンジニア選書 シリーズ 実践 SONiC入門 海老澤健太郎 著 https://gihyo.jp/book/2025/978-4-297-14943-7 Software-Defined Networks ソフトウェア定義ネットワークの 概念・設計・ユースケース 翻訳:進藤 資訓, 海老澤 健太郎, 小林 正幸 著者:Larry Peterson, Carmelo Cascone, Brian O’Connor, Thomas Vachuska, Bruce Davie https://www.amazon.co.jp/exec/obidos/ASIN/4798172049/ https://www.telecomi.biz/backnumber/bn2025_09.html https://github.com/ebiken/janog/tree/main/JANOG55 janog55-ai-infra.pdf JANOG55 (2025-01-22) https://www.janog.gr.jp/meeting/janog55/ultra/ 【参考資料】 AIインフラ解説資料 (AI/HPC & UEC技術概要)
  5. Arrcus, Inc. 概要 (アーカス) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. 4 • 創業:2016年 • 本社:北米 カリフォルニア(サンノゼ) • 社員数:約150名(2025年9月) • Founder and CTO: Keyur Patel • Ex-Cisco, Distinguished Engineer • Co-Chair IETF BGP & Sidrops WG • Chairman and CEO: Shekar Ayyar • Ex-VMware EVP & GM (14 years) 事業内容・特徴 • ホワイトボックススイッチを初め、様々なプラットフォーム上 でネットワーク機能を提供する “ネットワークOS” を開発 • 創業者CTO Keyur Patelを筆頭に、長年IETFで Working Group Chair などを務めているメンバーが多数在籍 • ユーザ企業と共同での研究開発、製品実装、IETFでの標準化 、などを通じて新しい技術を生み出している 本社:サンノゼ空港近く(SFOから35分)
  6. ArcOS: 多様なハードウェアで動くネットワークOS 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 5 汎⽤ シリコン ハイパースケール クラウド GPU, CPU スマートNIC ネットワーク ファブリック HW抽象化レイヤ スケールダウン 40/25/10/1G スケールアップ 800/400/100G
  7. AI/ML から5G・コア・DC・マルチクラウドまで 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 6 PEルーター アグリゲーション スイッチ アグリゲーション ルーター セルサイト ルーター データセンター VDR (Virtualized Distributed Router ) アグリゲーション コア アクセス マルチクラウド 1 N IP/MPLS IP/MPLS IP/MPLS Internet 5G Core 5G DCI MCN (Multi-Cloud Networking) 企業 DC データセンター 共通のネットワークOS 「ArcOS」は、ローエンドスイッチからハイエンドルーターまでをサポート
  8. ソフトバンク様公開事例 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc.

    7 5Gの商⽤ネットワークでSRv6 MUPの フィールドトライアルを開始 2023年2⽉24⽇ ソフトバンク株式会社 ソフトバンクは、5Gの商⽤ネットワークで「Segment Routing IPv6 Mobile User Plane」のフィールドトライアルを、2023年2⽉13⽇から開 始しました。ソフトバンクが開発をリードするSRv6 MUPは、5Gの特⻑を ⽣かしたMECやネットワークスライシングなどを、従来のモバイルネット ワークと⽐べて低コストで、かつ容易に実現する技術です。 ソフトバンクとヤマハ、SRv6 MUPを 適⽤した5Gの商⽤ネットワークで リモート合奏の実証実験を開始 2023年8⽉7⽇ ソフトバンク株式会社 ソフトバンクとヤマハは、「Segment Routing IPv6 Mobile User Plane」 を適⽤したソフトバンクの5Gの商⽤ネットワーク上で、ヤマハのリモート 合奏サービス「SYNCROOM」の共同実証実験を開始しました。 「SYNCROOM」は、複数のユーザー同⼠(最⼤5拠点)でリモート合奏が できるヤマハのサービスです。⾼速かつ安定した光回線において、複数の演 奏者同⼠による快適なオンライン合奏体験を実現しています。
  9. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 8

    https://www.businesswire.com/news/home/20250303039484/ja https://businessnetwork.jp/article/28211/3/ https://www.ufispace.com/products /ai-networking/ai-networking-800g- switch/s9321-64e-800g-datacenter- switch-for-aiml RoCEv2 on Tomahawk 5
  10. 情報ソース & 御礼 • 本資料作成にあたり、さまざまなコミュニティやカンファレンスでの発表や議論を参 考にしています(その後の呑み会を含む🍻) • 日本語で最先端の技術や動向を議論できる貴重な場を提供してくださっている、各 コミュニティの運営メンバーおよび参加者の皆様に深く感謝申し上げます 技術の総合格闘技!?

    〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 11 • JANOG : https://www.janog.gr.jp/ • MPLS Japan : https://mpls.jp/ • ISOC-JP : https://isoc-jp.connpass.com/event/366745/ • SONiC Users Group Japan • https://sonic.connpass.com/ • https://speakerdeck.com/sonic • SONiC Foundation : https://sonicfoundation.dev/ • Open Compute project: https://www.opencompute.org/
  11. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 12

    過去のJANOGセッション • JANOG54 生成AI向けパブリッククラウドサービスをつくってみ た話 • https://www.janog.gr.jp/meeting/janog54/sakura/ • 井上 喬視, 高峯 誠, 平田 大祐 さくらインターネット株式会社 • JANOG53 AI(人工知能)の為のネットワーク • https://www.janog.gr.jp/meeting/janog53/ainw/ • 土屋 師子生, アリスタネットワークスジャパン合同会社 • JANOG52 AI/ML基盤の400G DCネットワークを構築した話 • https://www.janog.gr.jp/meeting/janog52/aiml400/ • 内田 泰広, 小障子 尚太朗, 株式会社サイバーエージェント • JANOG50+ パケットロスと遅延 • https://www.janog.gr.jp/meeting/janog50plus/docs/janog50p lus-maz-losslatency.pdf • 松崎 吉伸(株式会社インターネットイニシアティブ) • JANOG43 LINEのネットワークをゼロから設計した話 • https://www.janog.gr.jp/meeting/janog43/application/files/79 15/4823/1858/janog43-line-kobayashi.pdf • Masayuki Kobayashi, LINE Corporation AI/HPCネットワーク関連(日本語) • GPUクラスタネットワークとその設計思想 • https://techblog.lycorp.co.jp/ja/20250115a • LINEヤフー株式会社 小林、深澤 • "GPUネットワーク設計・運用 基礎勉強会 Lossless Ethernet - PFC/ECN編" • https://speakerdeck.com/markunet/ecnbian • LINEヤフー株式会社 小林正幸 • AI時代のデータセンターネットワーク • https://speakerdeck.com/lycorptech_jp/dcnw_in_the_ai_era • 第40回 情報ネットワーク・ネットワークシステム研究ワークショップ • LINEヤフー株式会社 小林正幸 • EthernetベースのGPUクラスタ導入による学びと展望 • https://speakerdeck.com/lycorptech_jp/20241202 • NVIDIA AI Summit Japan 2024 • LINEヤフー株式会社 小林正幸、道下幹也 • Podcast: fukabori.fm "124. AI時代のGPUクラスタ、DCネットワーク" • https://fukabori.fm/episode/124 • LINEヤフー株式会社 小林正幸、道下幹也 • PFNにおけるアクセラレータ間通信の実際 / MPLS Japan 2024 • https://speakerdeck.com/pfn/mpls-japan-2024 • Yuichiro Ueno / Preferred Networks, Inc.
  12. Table of Contents 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. 13 AIインフラの現状(RoCEv2, PFC, ECN) AI インフラに対する “新たな” 要求 Scale Out | Scale Up | Scale Across Scale Up / Out / Across 技術比較の視点
  13. AIインフラ == モデル学習や推論のためのインフラ 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. 15 巨大化するモデルを効率的に扱うための GPU(XPU) クラスタ memory / storage は省略 PCIe Switch CPU NIC NIC GPU GPU PCIe Switch CPU NIC NIC GPU GPU PCIe Switch CPU NIC NIC GPU GPU PCIe Switch CPU NIC NIC GPU GPU Ethernet / InfiniBand Ethernet / InfiniBand node node node node rack rack
  14. Gen AI のワークロード 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. 16 特徴 大量のデータに対する繰り返し処理(計算) 目的 計算時間の短縮 手段 多くのプロセッサ(GPU)を利用した並列計算 トラフィック特性:広帯域なバーストトラフィック “データ転送→計算→データ転送→計算” の繰り返し
  15. AI ワークロードとネットワークの理解に必要な技術 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 17 並列計算 (Parallel Computing) 巨大なデータの計算時間短縮のため、 いかに多くのプロセッサ(GPU)を利用し 計算を並列化するか? 集合通信 (Collective Communication) RDMA (Remote Direct Memory Access) プロセッサ間のデータ通信を いかに効率化するか? ロスレス通信 輻輳制御 バースト性の高いトラフィックを いかに効率的に分散制御し、 転送性能を向上させるか? ロードバランシング
  16. 集合通信(Collective Communication) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 18 • 並列計算で利用される並列プログラミングのモデル • SPMDアルゴリズム (single program, multiple data) • MPI (Message Passing Interface) が代表的な実装 Broadcast(3), Reduce, All-Reduce(1), Prefix-Sum/Scan, Barrier, Gather, All-Gather(2), Scatter, All-to-all “Fast Multi-GPU collectives with NCCL”, NVIDIA Tech Blog, 2016 https://developer.nvidia.com/blog/fast-multi-gpu-collectives-nccl/ All-Reduce(1) All-Gather(2) Broadcast(3)
  17. データ並列化(Data Parallelism) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 19 シンプルな並列化手法 GTC2024 [S62129] Training Deep Learning Models at Scale: How NCCL Enables Best Performance on AI Data Center Networks https://www.nvidia.com/en-us/on-demand/session/gtc24-s62129/
  18. パイプライン並列化(Pipeline Parallelism) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 20 GPUメモリを効率的に利用可能 GTC2024 [S62129] Training Deep Learning Models at Scale: How NCCL Enables Best Performance on AI Data Center Networks https://www.nvidia.com/en-us/on-demand/session/gtc24-s62129/
  19. テンソル並列化(Tensor Parallelism) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 21 行列を分割し並列計算 → All-Gatherで結果を集約 GTC2024 [S62129] Training Deep Learning Models at Scale: How NCCL Enables Best Performance on AI Data Center Networks https://www.nvidia.com/en-us/on-demand/session/gtc24-s62129/
  20. 参考:テンソルとは? 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc.

    22 スカラー 0階テンソル (0次元配列) ベクトル 1階テンソル (1次元配列) 行列 2階テンソル (2次元配列) 3階テンソル (3次元配列) a1 a1 a2 a3 a1 a2 a3 b1 b2 b3 c1 c2 c3 Ca1 Ca2 Ca3 Cb1 Cb2 Cb3 Cc1 Cc2 Cc3 Ba1 Ba2 Ba3 Bb1 Bb2 Bb3 Bc1 Bc2 Bc3 Aa1 Aa2 Aa3 Ab1 Ab2 Ab3 Ac1 Ac2 Ac3
  21. RDMA (Remote Direct Memory Access) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025

    @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 23 CPUを解さずに直接データの読み書きを実施(リモートノードの仮想アドレスを指定) アプリケーション メモリ OS (例:Linux) メモリ NIC (HCA) CPU ユーザ カーネル ハード TCP/IP アプリケーション メモリ OS (例:Linux) メモリ NIC (HCA) CPU メモリ RDMA メモリ
  22. InfiniBand • IBTA (InfiniBand Trade Association) • https://www.infinibandta.org/ • ロスレス

    • Queue Pair (QP) 間で通信 • クレジットベースのフロー制御 • Ethernet(IP)上でRDMAを実現 → RoCE (RDMA over Converged Ethernet) ロッキー 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 24 Reducing the Impact of Memory Registration in InfiniBandTM https://www.researchgate.net/publication/242258491_Reducing_the_Impact_of_Memory_Registration_in_InfiniBandTM
  23. Infiniband, RoCE, RoCEv2 のプロトコルスタック 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. 25 InfiniBand (Link Layer) リンク レイヤ ネットワーク レイヤ Ethernet (Link Layer) Ethernet (Link Layer) InfiniBand (Network Layer) InfiniBand (Network Layer) IP UDP InfiniBand Transport Protocol ソフトウェア ハードウェア OFA Stack RDMA アプリケーション (ULP: Upper Layer Protocol) OFA Verbs トランスポート レイヤ InfiniBand Transport Protocol InfiniBand Transport Protocol InfiniBand RoCE RoCEv2 “RoCEv2 Update from the IBTA #OFADevWorkshop” を元に著者が作図 https://www.openfabrics.org/downloads/Media/Monterey_2014/Wednesday/pdf/02_RoCEv2forOFA.pdf
  24. Infiniband, RoCE, ROCEv2 のパケットフォーマット 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. 26 “RoCEv2 Update from the IBTA #OFADevWorkshop” を元に著者が作図 https://www.openfabrics.org/downloads/Media/Monterey_2014/Wednesday/pdf/02_RoCEv2forOFA.pdf IB BTH+ (L4 Header) ICRC IB Payload UDP Header Port # IB BTH+ (L4 Header) ICRC IB Payload LRH (L2 Header) ICRC IB Payload Eternet Header Type # EtherType = 0x8915 (next header: IB.GRH) EtherType = IP Protocol = UDP UDP Port # = 4791 next header: IB.BTH InfiniBand RoCE RoCEv2 IB BTH+ (L4 Header) • LRH: Local Routing Header • GRH: Global Routing Header • BTH: Base Transport Header • ICRC: Invariant CRC • VCRC: Variant CRC Eternet Header Type # IP Header Proto # InfiniBand (IB) GRH (L3 Header) InfiniBand (IB) GRH (L3 Header) FCS FCS VCRC RoCE : RDMA over Converged Ethernet InfiniBandをイーサネットやIP上で利用
  25. RoCEでロスレスが必要な理由 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc.

    27 サポートする製品もあるが、同時利用可能な機能などの制限あり 送信 受信 SEQ #1 SEQ #2 SEQ #3 SEQ #4 SEQ #5 SEQ #3 SEQ #4 SEQ #5 NAK #3 Go-Back-N ドロップ以降を全て再送 送信 受信 SEQ #1 SEQ #2 SEQ #3 SEQ #4 SEQ #5 SEQ #3 SEQ #6 NAK #3 Selective Repeat ドロップしたパケットを再送 ACK #5 SEQ #7
  26. PFC:プライオリティ単位のフロー制御 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc.

    28 • 送信キューや受信バッファをプライオリティ毎に用意 • 送信停止(依頼)をプライオリティ(キュー)毎に制御 → コントロールパケットなど、少量だが重要なパケットを送信可能 • Headroom Buffer による Inflight Packet の保護(ロスレス) 3 高プライオリティ 低プライオリティ 送信側 受信側 3 3 3 3 3 3 3 3 7 3 3 3 3 3 3 閾値(Xoff Threshold) 7 7 Egress Port Ingress Port Pause Egress Queue Ingress Buffer Stop 7 7 7 7 Priority 3 を指定 3 3 Headroom
  27. ECN/CNPによる輻輳制御(Congestion Control) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 29 • 課題:PFCが動作することによる性能劣化 → バッファが埋まる前に輻輳検知&送信元に通知し輻輳制御 • ECN: Explicit Congestion Notification (IP: RFC3168, RFC6040) • CNP: Congestion Notification Packet (RoCEv2 BTH) IP Header Payload DS DSCP ECN 2 bit Ethernet 6 bit Ethernet IP Header ECN: 0b10 UDP RoCEv2 Ethernet IP Header ECN: 0b11 UDP RoCEv2 Ethernet IP Header ECN: 0b10 UDP RoCEv2 Ethernet IP Header ECN: 0b11 UDP RoCEv2 RoCEv2 Initiator RoCEv2 Target Leaf Switch Spine Switch Leaf Switch CNP ECN: 0b01 Congestion 輻輳 ② ECNを変更 ① ECNをセット ③ 0b11 を受信したら CNPを送信 ④ CNPを受信したら 送信レートを調整 0b00 Not-ECT (Not ECN-Capable Transport) 0b01 ECT(1) (ECN-Capable Transport(1)) 0b10 ECT(0) (ECN-Capable Transport(0)) 0b11 CE (Congestion Experienced)
  28. Dynamic Load Balancing (Flowlet based) • ECMP(ハッシュ)だけでなく、ポートの負荷状況に応じ送信ポートを決定 • 負荷状況に応じた、定期的な送信先の変更(rebalance) •

    アイドル時間に応じた変更(パケットのリオーダリングの防止) • 例:一定時間アイドルのフローを新規フロー(Flowlet)として扱う • 長時間生存かつ望ましくないパスを採用しているフローのリバランス • コストが異なるパスの利用 • パスコストとトラフィック状況の両方を考慮したパスの決定 送信先決定に利用する統計情報やアルゴリズムは、 スイッチASICやネットワークOS毎に異なります 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 30
  29. トラフィック特性による課題と解決手法(技術・機能) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc.

    31 トラフィック特性による課題 → 要求 解決手法 (技術・機能) RDMA (Go-Back-N) → イーサネット上でロスレスを実現 PFC (802.1Qbb Priority-based Flow Control) PFCによる性能劣化 → PFCの介入を最小限にする ECN/CNPによる輻輳制御(Congestion Control) ノード内・外のGPUで発生するデータ移動 → ノード内トポロジーへの配慮(NVLINK, PCIe) 効率的なトポロジー(Rail Optimized 等) 広帯域なバーストトラフィック(少数のフロー) → ECMPによる負荷分散が困難 → In-order delivery(順序保証)の制約 スイッチ負荷状況に応じた負荷分散 Adaptive Routing (Dynamic Load Balancing)
  30. AI インフラに対する “新たな” 要求 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. 32 推論速度の高速化 • メモリセマンティックなXPU接続の拡大 • ノード => ラック => Pod • XPU間接続のさらなる広帯域&低遅延 オペレーション効率化やコスト削減 • 運用監視精度の向上 • 自動チューニングやAIによる運用支援 (AI for Infra Operation) 電力・排熱 • データセンターをまたがるクラスター接 続(Scale-Out) • ハードウェアの対応:水冷、光電融合 モデルの巨大化 • RoCEv2による制約 • ロスレス、In-order Delivery • より巨大なXPUクラスタ(100K+) • 障害時のリカバリや信頼性の向上 • Resilience & Fault tolerance
  31. AIインフラへの新たな要求に対応する “Scale Up” & “Scale Across” 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC

    2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 33 Scale Up Scale Out Scale Across node ~ rack ~ pod rack ~ pod ~ data center regional data centers 推論速度の高速化 モデルの巨大化 電力・排熱
  32. 既存技術の課題(Scale Out 関連) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. 35 ロスレスの複雑さや性能ペナルティを回避 ↓ RoCEの独自拡張 (eRoCE by Broadcom) 新しいトランスポートプロトコル(UET)& ネットワークレイヤーの機能 機能 RoCEv2で利用される代表的な技術 課題 ロスレスイーサネット (Lossless Ethernet) PFC (Priority Flow Control) • HOLブロッキング • 輻輳伝播 • デッドロックの発生 • PFCバッファサイズやECN閾値 輻輳制御 (Congestion Control) ECN / DCQCN ロードバランシング ファブリック帯域の活用 (Load Balancing, Fabric utilization) Dynamic Load Balancing (flowlet) • Flowlet を認識する閾値(Interval) • ECMP Hash の偏り
  33. Beyond RoCEv2 ... eRoCE to Ultra Ethernet 技術の総合格闘技!? 〜 AIインフラの現在と未来

    〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 36
  34. RoCEv2 の課題 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 37 Slide 5, RoCE Enhancements for Large Scale Multi-Path Ethernet Networks Hemal Shah, Distinguished Engineer and Architect, Core Switching Group, Broadcom Inc. MVAPICH2 User Group Conference, August 19, 2025 | https://mug.mvapich.cse.ohio-state.edu/static/media/mug/presentations/25/mug25-RoCE-Enhancements.pdf
  35. eRoCE による解決方法 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 38 Slide 6, RoCE Enhancements for Large Scale Multi-Path Ethernet Networks Hemal Shah, Distinguished Engineer and Architect, Core Switching Group, Broadcom Inc. MVAPICH2 User Group Conference, August 19, 2025 | https://mug.mvapich.cse.ohio-state.edu/static/media/mug/presentations/25/mug25-RoCE-Enhancements.pdf
  36. eRoCE による解決方法 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 39 Slide 7, RoCE Enhancements for Large Scale Multi-Path Ethernet Networks Hemal Shah, Distinguished Engineer and Architect, Core Switching Group, Broadcom Inc. MVAPICH2 User Group Conference, August 19, 2025 | https://mug.mvapich.cse.ohio-state.edu/static/media/mug/presentations/25/mug25-RoCE-Enhancements.pdf Broadcom独自拡張
  37. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. UEC概要

    | UEC組織構成 AI と HPC 両方の課題を解決する技術の 「オープンスタンダード」 を 「マルチベンダ」 で開発 • メンバー企業:93社 (2025年11月 現在) • Linux Foundation 傘下 • JDF (Joint Development Foundation) の一部 • Contributor Members: IIJ, TOYOTA, Fujitsu メンバー企業の一覧 : https://ultraethernet.org/ 40
  38. UEC Stack Overview 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. UECの技術スタック • サーバー上のライブラリから物理まで、レイヤーをまたがる改善 • Libfabric の拡張+UETプラグイン、NICドライバ • ECN拡張=>DCN (Trimming) • Link Layerでのフローコントロール(ロスレス)(Optional) 42
  39. UECの技術スタック 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc.

    libfabric API を採用 RoCEv2を置き換えることから影響範囲が大きいため、どのコンポーネントの変更が必要か、十分な理解が必要 43
  40. UET:AIやHPC向けトランスポートプロトコル 要件 • ロスレスを前提としない => ベストエフォート • ロードバランスの課題を解決 => リオーダーに対応

    上記要件を満たす、高速通信に必要な機能を追加 • Packet Spray • Posted Buffer • Packet Trimming (Drop Congestion Notification) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. UECの技術スタック 44
  41. パケットのリオーダーに対する効率的な対応(Posted Buffer) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. UECの技術スタック Packet Spray によりリオーダリングが発生 => Posted Buffer で対応 (SwitchやNICでリオーダリングバッファは不要) Packet Spray • 全てのパスを利用してパケットを転送 • idle閾値を用いた flowlet の認識や、パ スの品質判定が不要 Posted Buffer • パケット毎に書き込むバッファIDを付与 • どの順番で受信しても正しいバッファに データが書き込まれる 45
  42. Packet Trimming ... Drop Congestion Notification (DCN) 技術の総合格闘技!? 〜 AIインフラの現在と未来

    〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. UECの技術スタック |ベストエフォート(ロスを許容)することの課題への対応 • Drop検知に受信側のタイマーを利用できない(トランザクションが短いため) • Dropが必要な場合(Queue溢れ)、Dropせずにヘッダ+フラグのみを送信、再送が必要なことを伝える Packet Trimming の動作:NANOG92 の図を引用。解説は著者により日本語訳 "Keynote: Networking for AI and HPC, and Ultra Ethernet", NANOG 92, Hugh Holbrook, Arisa Networks • ドロップする代わりに 64byte に切り捨て(Trim) • DSCPを "trimmed" としてマーク • 高優先キューを用いて送信(enqueue) 46
  43. Ethernet Link Layer のエラーに対応 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. UECの技術スタック Link-Layer Retransmission (LLR): NANOG92 の図を引用 "Keynote: Networking for AI and HPC, and Ultra Ethernet", NANOG 92, Hugh Holbrook, Arisa Networks LLR: Link-Layer Retransmission, CBFC: Credit Based Flow Control, LLDP Negotiation 帯域の高速化(800G, 1.6T / port) => Link-Layer でのパケット保護が必要に (Scale Up でも利用) 48
  44. In Network Collectives • InfiniBand の NVIDIA SHArP 類似技術 •

    中継ノードで集団通信をオフロードするこ とにより、 トラフィック量や遅延を削減 • (例:メッシュ通信ではなくツリー通信) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. UECの技術スタック Scalable Hierarchical Aggregation Protocol (SHArP): A Hardware Architecture for Efficient Data Reduction https://network.nvidia.com/pdf/solutions/hpc/paperieee_copyright.pdf UEC v1.0 には間に合わず Broadcom Tomahawk Ultra でサポート 49
  45. UEC技術の利用に向けて • UECはRoCEv2をUETと置き換える "スタック全体の改善" • AIアプリケーションやミドルウェアを含め、影響範囲を理解することが重要 • 様々なベンダと連携した技術検証が必要(GPU, NIC, Switch

    ASIC, Switch OS, 等) • UECの各要素技術がリリースされるタイミングは様々 • 段階を追った技術検証が必要 • リンクやネットワークレイヤーの機能はオプショナルなものが多い • 既存のイーサネットスイッチを利用した検証から開始可能 • なぜオープンな技術を利用するのか?いつから利用を検討するのか? • オープンな技術や製品は、クローズドに比べ検証に技術(者)が必要 • InfiniBand/Ethernet, NVIDIA/Others. • 機能、納期、製品コスト、技術リソース、コミュニティ成熟度、など。 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 50
  46. UECの技術スタック 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc.

    libfabric API を採用 RoCEv2を置き換えることから影響範囲が大きいため、どのコンポーネントの変更が必要か、十分な理解が必要 51
  47. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. Technology

    Description Switch ASIC Switch OS NIC (driver) アプリ ミドル UEC Transport (UET) RoCEv2の置き換えとなるトランスポートプロトコル。Out-of-order パケットの受信、ベストエ フォート(非ロスレス)、等に対応。 n/a n/a YES YES Packet Trimming Drop Congestion Notification (DCN) とも呼ばれる。 輻輳発生時に、パケットを一定のサイ ズにトリムし、高優先度で転送することにより受信ノードに輻輳を伝える。 これにより、ド ロップ検知Timerによる遅延を無くす。 YES YES YES n/a Link Level Retry (LLR) イーサネットのリンクレイヤでパケットロスが発生しないように送信管理や再送を行う。 Credit Based Flow Control (CBFC) YES YES YES n/a LLDP Negotiation LLRのサポートなど、キャパビリティをノード間でネゴシエーションする。従来のLLDPにUEC 拡張が行われる。 YES YES YES n/a Packet Spray, Ordered(ROD) and un- ordered(RUD) 利用可能なパス全てにパケットをSprayすることで、パケットレベルのロードバランシング を実施し、イーサネットファブリックの利用率を向上させる。 UETの機能であり、パケット (メッセージ)にメモリのどの場所に保存すべきか識別可能なIDを埋め込むことにより、受 信ノードでパケットのリオーダー(バッファリング)を不要にする。 YES YES YES n/a Ephemeral connections (短命コネクション) 最初のパケットにセッション情報入れてハンドシェイクを不要にする。(PDC,PDS) バース ト的なデータ転送を繰り返すワークロードでハンドシェイクのオーバーヘッドを排除しバー スト毎の転送時間の短縮によるスループット向上を実現する。 n/a n/a YES n/a In Network Collectives (INC) Collective Communication Operation を Switch Fabric 内のスイッチにオフロードする。 恩 恵として性能向上(輻輳やデータ転送量の削減、遅延の削減)、リソース利用効率の向 上(プロセッサ、アクセラレータ、メモリ)、消費電力の削減、が期待される。 YES YES YES YES? UECはスタック全体の改善のため 様々なベンダと連携した技術検証が必要 UEC技術と関連するコンポーネント UEC技術の利用に向けて YESは利用するために対応が必要なデバイス (UETで利用が必須なデバイスではない) 52
  48. 【参考資料】 AIインフラ解説資料 (AI/HPC & UEC技術概要) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025

    @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. https://github.com/ebiken/janog/tree/main/JANOG55 => janog55-ai-infra.pdf 53
  49. UEC v1.0 仕様 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. UEC v1.0 仕様 https://ultraethernet.org/wp-content/uploads/sites/20/2023/10/23.07.12-UEC-1.0-Overview-FINAL-WITH-LOGO.pdf https://ultraethernet.org/uec-progresses-towards-v1-0-set-of-specifications/ 55
  50. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. “Ultra

    Ethernet Consortium (UEC) Launches Specification 1.0 Transforming Ethernet for AI and HPC at Scale” 2025-06-11 UEC v1.0 仕様 June 11, 2025 https://ultraethernet.org/ultra-ethernet-consortium-uec-launches-specification-1-0-transforming-ethernet-for-ai-and-hpc-at-scale/ 56
  51. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. UEC

    v1.0 仕様 ホワイトペーパー(8 pages) UECの背景も解説 仕様書(562 pages) レイヤ毎に章が分かれている 紹介ビデオ(6分) UEC技術の全体を網羅 適合性試験(compliance) 相互接続性試験のチェックリスト https://ultraethernet.org/ 57
  52. Ultra Ethernet Linux Kernel Modules 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025

    @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. UEC技術の利用に向けて Source Code Upstream の議論が進行中 https://lore.kernel.org/linux-rdma/[email protected]/ Netdev 0x19 - Networking For AI BoF, 2025-03-11 https://www.youtube.com/watch?v=G8mLlHvTdhg 58
  53. Packet Trimming on SAI (Switch Abstraction Interface) 技術の総合格闘技!? 〜 AIインフラの現在と未来

    〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. UEC技術の利用に向けて https://github.com/opencomputeproject/SAI/blob/master/doc/SAI-Proposal-Packet-Trimming.md SAIとは何か?については “実践 SONiC入門” で解説 https://gihyo.jp/book/2025/978-4-297-14943-7 59
  54. UEC Link Layer Features planned for SONiC 202511 (LLR, CBFC)

    技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. UEC技術の利用に向けて https://github.com/orgs/sonic-net/projects/35/views/1?filterQuery=UEC 60
  55. Terminology • XPU • interchangeable with GPU and Accelerator (ACC)

    • Station • UALink station, equivalent to SUE instance • An instance of UALink / SUE on XPU • XPU can have multiple of them to increase per XPU bandwidth 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 62
  56. Scale Out と Scale Up の違い (ハードウェア構成とデータの流れ) 技術の総合格闘技!? 〜 AIインフラの現在と未来

    〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. (参考)セマンティクスとは? • API の操作やデータのやり取りが持つ「意味」や「意図」 • 単なる構文(syntax、例えばAPIの引数)と異なり、セマン ティクスはその操作が何を意味するのか、どのような結果 が期待されるのか、に焦点を当てている Scale Out (InfiniBand, RoCE) “メッセージ” セマンティクス(message semantics) 操作:Send / Recv API Scale Up (NVLink, UALink, SUE) “メモリ” セマンティクス(memory semantics) 操作:Load / Store Operation それぞれメリット・デメリットがあり、組み合わせて利用される 63 Slide 11 “Memory Semantics is must-have for Scale-up”, MetaX “Quantitative Approach to Scale-up Network from GPU Perspectives”, 2025-09-16 SONiC Scale Up Working Group
  57. Memory Semantics (Load / Store) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025

    @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. C言語 アセンブリ言語 メモリ(アドレス)への直接アクセス 64 int main() { // uint64_t memory_ptr; // volatile uint64_t *R1 = &memory_ptr; // Allocate memory // (typically, framework API is used) volatile uint64_t *R1 = (uint64_t*)0x1000000; // Store operation - writing to memory *R1 = 0xDEADBEEF; // Direct store: R0(0xDEADBEEF) printf("Stored value: 0x%llx\n", *R1); // Load operation - reading from memory uint64_t R0 = *R1; // Direct load printf("Loaded value: 0x%llx\n", R0); return 0; }
  58. NVLink Network 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 65 HotChips 34 (2022) NVLink-Network Switch - NVIDIA’s Switch Chip for High Communication-Bandwidth SuperPODs , https://hc34.hotchips.org/
  59. なぜ Scale Up が必要か? 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. 69 PCIe / CXL NVLink (NVIDIA) UALink (AMD et. al.) SUE (Broadcom) EthLink (ByteDance) ETH-X (Tencent) UB-BUS (Huawei) UEC for Scale Up? Scale Up Scale Out スケールアウト(Scale Out)設計にも “サーバー内部” のトポロジーを意識する必要がる 最適なアルゴリズム選択や輻輳制御には “データが移動する全ての経路” の把握が必要
  60. Scale Up による推論の高速化 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. 70 なぜ Scale Up が必要か? • Alibaba の経験からは “Extreme LOW Latency” は必ずしも必要で はない(Computation time が必要なので、Latencyを減らしても ある一定以上は早くならない) 2025-06-17 SONiC Scale Up WG: Reference model, Joy (Yijiao) Qin @Alibaba • 高帯域幅の重要性:DeepSeek-V3のような大規模モデルで は、データ転送量が多いため、高速な通信時間(Comm. Time)を実現する高帯域幅のネットワークが必要不可欠 • NVL72 による性能向上:従来の400Gbps InfiniBand NIC と比較して、900GB/sのNVL72 を使用することで、通信時 間が大幅に短縮される(129.96マイクロ秒から6.72マイクロ 秒へ) • 推論時間の短縮:広帯域幅のNVL72を使用することで、 DeepSeek-V3の総推論時間が14.76ミリ秒から0.82ミリ秒 へと劇的に短縮され、TPOT(Tokens Per Second)も67 トークン/秒から1200トークン/秒に向上 • ただし、Prefillなどステージ毎の影響も細かく考慮する必要あり • Scale Out で NIC 増やすのは、消費電力も課題になる Alibaba example of why we need Scale Up (not only Scale Out)
  61. NVLink (既存 Scale Up 技術の例) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025

    @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 73 NVSwitchを利用し束ねて早くする • 2024-08-14 (NVLink Gen4) : https://developer.nvidia.com/blog/nvidia-nvlink-and-nvidia- nvswitch-supercharge-large-language-model-inference/ • NVLink Gen3,4,5 : https://www.nvidia.com/en-us/data-center/nvlink/ https://en.wikichip.org/wiki/nvidia/nvlink
  62. Scale Up ではリンクを束ねて帯域を拡大している 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. 74 2024-03-18 GB200 NVL72 NVLink Gen5 https://developer.nvidia.com/blog/nvidia-gb200-nvl72-delivers-trillion- parameter-llm-training-and-real-time-inference/ The NVIDIA GB200 NVL72 introduces fifth-generation NVLink, which connects up to 576 GPUs in a single NVLink domain with over 1 PB/s total bandwidth and 240 TB of fast memory. • Each NVLink switch tray delivers 144 NVLink ports at 100 GB so • the nine switches fully connect each of the 18 NVLink ports on every one of the 72 Blackwell GPUs. NVLink switch tray 100GB x144 ports Blackwell GPU NVLink switch tray 100GB x144 ports NVLink switch x9 100GB x2 ports / switch Total x18 ports / GPU 14.4Tbps (1.8TB) / GPU (100GB x 2 ports x 9 switch) GB200 = x1 CPU (Grace) + x2 GPU (Blackwell) 3.6TB per GB200 1.8TB per GPU Note: All bandwidth numbers are bi-directional GB200 NVL72 NVLink Gen5
  63. NVLink Packet Format 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. 75 https://en.wikichip.org/wiki/nvidia/nvlink A single NVLink packet ranges from a one to eighteen flits. Each flit is 128-bit, allowing for the transfer of 256 bytes using a single header flit and 16 payload flits for a peak efficiency of 94.12% and 64 bytes using a single header flit and 4 payload flits for an efficiency of 80% unidirectional. In bidirectional traffic, this is slightly reduced to 88.9% and 66.7% respectively. A packet comprises of at least a header, and optionally, an address extension (AE) flit, a byte enable (BE) flit, and up to 16 data payload flits. A typical transaction has at least request and response with posted operations not necessitating a response. Scale Up も Packet (Header + Data)
  64. なぜ UALink/SUEが必要か? (NVLink の課題) • NVIDIA GPU (CPU) が必須 •

    NVLink Fusion でIPが提供されるが... • 3rd party プロセッサと、NVIDIA GPU/CPUを接続 • 3rd party 同士の接続には使えない 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 77 https://www.servethehome.com/nvidia-announces-nvlink-fusion-bringing-nvlink-to-third-party-cpus-and-accelerators/
  65. NVLink Fusion Announcement @ COMPUTEX Taipei 2025 技術の総合格闘技!? 〜 AIインフラの現在と未来

    〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 78 • Computex Taipei 2025 (5月)で発表 • NVLink を他社チップに搭載可能な “IP” を利用可能に • NVIDIA独占から、エコシステムの成長へと方針転換 NVIDIA CEO Jensen Huang Keynote at COMPUTEX 2025 https://www.youtube.com/live/TLzna9__DnI?si=CPD4mg09W3DLaHDo&t=3158 PC Watch: 「AMDやIntelもNVLink Fusionを使いたいなら歓迎」フアンCEO 2025-05-28 https://pc.watch.impress.co.jp/docs/news/event/2017939.html
  66. Future Scale Up Technologies UALink & SUE (Scale Up Ethernet)

    技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 79
  67. UALink 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc.

    [*] 802.3dj + AMDのInfinity Fabric (subset) • オープンプロトコル[*]を基盤とし、アクセラレータ間のデータ転送を高速化 • 100社のメンバー企業 AMDを中心とした Promoter Members (12) Broadcomを含む、Contributor (54), Adapter (34) https://ualinkconsortium.org/members/ Introducing the UALink 200G 1.0 Specification Webinar 2025-04-22 https://ualinkconsortium.org/webinars/introducing-the-ualink-200g-1-0-specification-webinar-626/ 80
  68. UALink Stack & Rack Scale System 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC

    2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. • 物理層はイーサネット(最大 200Gbps x4 lanes) • LLR, CBFC でロスレスを実現(SUEと同じ) • Data / Transaction Layer は独自ヘッダを利用 UALink Switch 管理エージェントと Pod Controller が連携して制御 White Paper: Introducing the UALink 200G 1.0 Specification https://ualinkconsortium.org/wp-content/uploads/2025/04/UALink-1.0-White_Paper_FINAL.pdf 81 Transaction
  69. UALink: 32 XPU + 32 Switch の接続例 技術の総合格闘技!? 〜 AIインフラの現在と未来

    〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 82 • XPU毎に複数の Station を持つ • Station == 4 Lanes (200Gbps x4) • 分岐は 4/2/1 で選択可能 • 例:800Gbps x1 でもOK 6.4Tbps x 32 XPU (200G x 4 Lane x 8 Station x 32 XPU)
  70. SUE (Scale Up Ethernet) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. パケットフォーマット • 軽量でレイテンシ最適化されたヘッダーを採用(AFH) • 既存技術を利用した選択肢も用意(IP/UDP) • 転送ごとのオーバーヘッドを最小化 (特に小さなデータ単位で重要) 輻輳管理(Congestion Management) • ロスレスかつ決定性(deterministic)のあるレイテンシを保証 Link-Level Retry (LLR), Credit-Based Flow Control (CBFC), Priority Flow Control (PFC) 交換可能なインターフェース(Fungible Interfaces) • 同じ XPU ポートを Scale Up にも Scale Out にも使用可能 • 動的なリソース分割やハードウェア設計の簡素化を実現 (BLOG) Broadcom: Scale-up is simple. Ethernet makes it smarter. (2025-05-21) https://www.broadcom.com/blog/scale-up-is-simple-ethernet-makes-it-smarter (仕様書)Scale Up Ethernet Framework Specification, Scale-Ethernet-RM102.pdf https://docs.broadcom.com/doc/scale-up-ethernet-framework 83
  71. SUE Stack 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. • Ethernet 上の(薄い)ネットワークレイヤでロスレス制御 • Transaction Layer は規定せず(XPU毎) Scale Up Ethernet Framework Specification, Scale-Ethernet-RM101.pdf https://docs.broadcom.com/doc/scale-up-ethernet-framework 84 Transaction
  72. EthLink (ByteDance) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 90 EthLink: Ethernet Link OEFH: Optimized EthLink Forwarding Header https://blog.csdn.net/aosudh/article/details/147731322 中国
  73. ETH-X hypernode (ODCC, Tencent) • The project plans to complete

    the development of the hardware and software of the ETH-X hypernode prototype and the verification test of related business systems by the fall of 2025, and publish the technical specification 1.0 of the ETH-X hypernode. • The Open Data Center Committee(ODCC) • https://www.odcc.org.cn/news/p-1793939807426928641.html • ETH-X solution based on Ethernet RoCE technology • https://www.zte.com.cn/china/about/magazine/zte-technologies/2025/4/3/6.html • https://www.lightcounting.com/research-note/september-2024-alibaba-and-tencent- launched-two-new-initiatives-to-scale-up-ai-clusters-at-odcc-2024-365 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 91 中国
  74. Flow control: PFC CBCF comparison 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025

    @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. • PFC • simpler/low overhead • eficient buffer usage (shared buffer) • CBFC • better performance no packet drop (CBFC+LLR) • no headroom required • not sensitive to delay (less tuning) • easier to config for different cable length / buffer size. • CBCFの方が実装は複雑だが、デバイスやケーブル長 によるバッファ量や閾値のチューニングが不要となる • Scale Out の文脈では、データセンター間など、(遅 延が大きい) 長距離接続でバッファの節約に繋がる 93
  75. Why FEC is important? 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. 94 FEC LLR ジッタ (揺らぎ) Variance 小 大 (再送により) 遅延 Latency 大 (全bitを計算) 小 Slide 24 “Observed Variation due to Unreliable Links”, MetaX “Quantitative Approach to Scale-up Network from GPU Perspectives”, 2025-09-16 SONiC Scale Up Working Group More efficient compute/communication overlay with less variance. AllReduce performance on Not-so-reliable PCIe5 Links (LPO, NO FEC, only LLR)
  76. Scaling up the "Scale Up" (Multi ASIC) 技術の総合格闘技!? 〜 AIインフラの現在と未来

    〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 95 Switch (ASIC) 間の接続は不要 => ルーティングプロトコルは不要 XPU ID (Accelerator ID) がスイッチングに利用される
  77. Failoverの課題 (Job停止コストの高さ) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 96 • Station から single uplink (port) でスイッチに接続 => Link Fail 時にメモリを別の Lane に remap する必要がある。 • Station から 2/4 uplink を用いてスイッチに接続することで、冗長化可能(但し配線は増える) • SONiC Scale Up Working Group では Switch間を接続し迂回させる方法も議論されている) HLD: Ethernet Scale Up AI Cluster Architecture https://github.com/a114j0y/SONiC/blob/scale-up/doc/scale_up/Ethernet_Scale_Up_AI_Cluster_Architecture.md SUE: Scale-Ethernet-RM102
  78. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 97

    SONiC Scale Up workgroup (2025) • ユーザー各社からの要件紹介 • ベンダからの技術紹介 • ディスカッション(一番重要) https://lists.sonicfoundation.dev/g/SONiC-Scale-Up-WG
  79. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 98

    • 2025-04-08 Alibaba's scale up requirements, Eddie @Alibaba (First meeting) • 2025-04-15 Microsoft Scale up requirements, Riff Jiang @Microsoft • 2025-04-22 Initial draft for architecture doc, Niranjan Vaidya @Broadcom • 2025-05-06 Some highlights from UEC, Eddie • 2025-05-13 SUE readout, Karen Schramm @Broadcom • 2025-05-22 Deepseek paper and discussion points for arch doc, Eddie • 2025-06-03 ID lookup discussion, Yubin Lee @Alibaba • 2025-06-17 Reference model, Joy (Yijiao) Qin @Alibaba • 2025-06-24 Intro to SONiC Multi ASIC support, Rita Hui @Microsoft • 2025-07-08 Scale up protocol stack, Riff Jiang @Microsoft • 2025-07-15 PFC/CBFC discussion, Fengsheng Yang @Alibaba • 2025-08-05 Synced action items for PR. No actual discussions. • 2025-08-12 Arch doc PR review, Joy (Yijiao) Qin @Alibaba • 2025-08-19 Tencent Scale up thoughts, Zack @Tencent • 2025-08-26 Bytedance Scale up thoughts, Sean @Bytedance • 2025-09-02 LLR and FEC, Junjun @Cisco • 2025-09-16 Meta-X: Quantitative Approach to Scale Network from GPU Perspectives, Zhaoshi @Meta-X 過去のミーティングトピックス(Video録画やスライド有り) • Alibaba • Bytedance • Microsoft • Tencent • Broadcom • Cisco • Meta-X • (NVIDIA)
  80. Scale Up はデファクト争い中 1. ベンダ独自技術のエコシステムを構築:NVLink 2. しっかりと定義されたオープンプロトコル:UALink 3. 低レイヤーのみ定義されたシンプルなオープンプロトコルで、実 用化の早さとXPU最適化を狙う:SUE

    4. 中国の経済圏で企業が集まり、2. 3. の様なオープンプロトコル を定義、し早期の実用化を狙う:EthLink, ETH-X 5. その他のベンダ独自技術も?(e.g., Huwaei UB) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 99
  81. OCP Global Summit 2025 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. 100 OCP Global Summit 2025 | Keynote (day 2) "Networking for AI Scaling”, Ram Velaga (Broadcom) https://www.opencompute.org/events/past-events/2025-ocp-global-summit
  82. OCP workstream ~ Ethernet Scale-up Networking (ESUN) 技術の総合格闘技!? 〜 AIインフラの現在と未来

    〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 101 ESUN • すべての XPU に共通して使用される • ネットワークスイッチ間でトラフィックがどのよう に送信されるかを規定 • プロトコルヘッダー、エラーハンドリング、ロスレ スデータ転送など SUE-T (Transport) • XPU 毎に適した他のプロトコルに置き換え可 能 • ネットワークのエンドポイント機能を規定 • ワークロードの分割、メモリ順序制御、ロード バランシングなど(XPU アーキテクチャと密接 に協調設計)
  83. 2025-11-05 OCP ESUN workstream kickoff 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025

    @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 102 2025-11-05 OCP ESUN workstream kickoff “Meeting Notes” https://docs.google.com/document/d/1DCDDBIRj5T9ap5uRZTF-hYbgHp-3o_Pu/ Attendees: 175 https://www.opencompute.org/wiki/Networking/ESUN
  84. Scale-Up により XPU 間 Interconnect が node/rack => Pod に拡大可能に

    技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 103 2025-11-05 OCP ESUN workstream kickoff “ESUN Overview” https://drive.google.com/file/d/1CpchbtaggPqc0_hAcYUDGk0duoTHpabQ/view
  85. 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 104

    Internet Week 2011 ~ S9 仮想化時代のパケットフォワーディング https://speakerdeck.com/ebiken/iw2011-packet-forwarding
  86. なぜ Scale Up が必要か? 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. 106 PCIe / CXL NVLink (NVIDIA) UALink (AMD et. al.) SUE (Broadcom) EthLink (ByteDance) ETH-X (Tencent) UB-BUS (Huawei) UEC for Scale Up? Scale Up Scale Out パケットが得意なネットワークエンジニアなら サーバーの中(チップ間)のネットワークも理解できる!! 最適なアルゴリズム選択や輻輳制御には “データが移動する全ての経路” の把握が必要
  87. 電力・排熱 の制約 => データセンターをまたがるクラスター接続 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤

    健太郎 Arrcus, Inc. 108 Scale Across • Deep Buffer (Switch ASIC) • 遅延差を考慮したアルゴリズム • 物理レイヤーでの遅延削減
  88. Scale Across 事例(Meta) 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. 109 Meta’s DC Networks for Generative AI - Live from SCC 2025-08-13 @Scale: Networking https://atscaleconference.com/videos/metas-dc-networks-for-generative-ai/ Regional Interconnect => Regional Aggregation
  89. 空孔コア(Hollow core)ファイバーによる遅延削減 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus,

    Inc. 110 Microsoft Blog: How hollow core fiber is accelerating AI 2024-06-25 | https://azure.microsoft.com/en-us/blog/how-hollow-core-fiber-is-accelerating-ai/ マイクロソフトも注目の「パワー1000倍」光ファイバー 空孔コアで限界突破 2024-04-04 | https://businessnetwork.jp/article/19075/2/ 物理レイヤーの イノベーション
  90. Scale Up / Out / Across 技術比較の視点 技術の総合格闘技!? 〜 AIインフラの現在と未来

    〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎 Arrcus, Inc. 112 重視する要件 • スケーラビリティ(モデル・データサイズ) • 性能 vs 安定性 vs コスト • サービス開始タイミング • XPUの種類&対応技術 ワークロードの変化 • アルゴリズムやモデルの革新 • インフラに対する要件の変化 • ユーザー数の変化 組織や経営戦略 • 企業&サービス毎の組織やコスト構造 • 所轄組織の構造(ネットワーク・サーバー・アプリ) • オープン技術採用戦略(ベンダ多様性戦略) ユースケースやビジネスモデル • 利用可能なマルチテナント技術の違い • 利用可能な Scale Out プロトコルの違い (自社利用、アプリやAPIの提供、Job単位、ベアメタル提供)
  91. Call to Action 技術の総合格闘技!? 〜 AIインフラの現在と未来 〜|ONIC 2025 @軽井沢大賀ホール|海老澤 健太郎

    Arrcus, Inc. 113 AIインフラ => ネットワークとサーバーの協調設計・運用 コンピューティングへの理解(メモリ、バス、プロセッサー、ソフトウェア) データプレーン(OpenFlow)とコントロールプレーンに関わってきた ex-SDN Japan な我々の得意な分野 1人で全ての技術領域(レイヤー)をカバーすることは不可能 コミュニティで議論しながら理解を深めて新しい技術を生み出していこう