Upgrade to Pro — share decks privately, control downloads, hide ads and more …

22nd ACRi Webinar - NTT Kawahara-san's slide

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Nao Sumikawa Nao Sumikawa
February 08, 2026

22nd ACRi Webinar - NTT Kawahara-san's slide

IOWNによる次世代コンピューティング基板とハードウェアファンクションチェイニング技術

Avatar for Nao Sumikawa

Nao Sumikawa

February 08, 2026
Tweet

More Decks by Nao Sumikawa

Other Decks in Technology

Transcript

  1. 2 © NTT, Inc. 2026 1. IOWNの概要とIOWN光コンピューティング 2. Hardware Function

    Chaining の提案 3. Hardware Function Chaining を活用したシステム応用例 4. まとめ
  2. 5 © NTT, Inc. 2026 NTT Green Innovation toward 2040

    Source: https://group.ntt/en/environment/management/vision/ Figure: Illustration of NTT group greenhouse gas emission reductions (domestic and overseas) NTTグループは2040年までにカーボンニュートラルを実現するため、省エネ・再エネ拡大・ IOWN導入を軸に環境負荷ゼロと経済成長の両立を目指すビジョンです。
  3. 6 © NTT, Inc. 2026 IOWNを構成する3つの主要技術領域 Multi-Orchestrator Cloud Network Services

    Provider A Provider B Cognitive Foundation® Provider C Agile allocation of ICT resources Optimization of the structure Ctrl API Device Agent Public Private Ctrl Ctrl API API API API Processor using photonics-electronics convergence technologies Ctrl Ctrl Edge Ctrl Digital twin computing End-to-End coordination of ICT resources All-Photonics Network Innovative Optical and Wireless Network (IOWN) とは: 高速通信・大容量ネットワーク・大規模な計算資源を提供する、統合的なネットワークおよび情報処 理基盤です。
  4. 7 © NTT, Inc. 2026 光電融合をコンピューティングの世界へ Inter-package Long-distance 通信のための光 演算のための電気

    Intra-package (inter-chip) データ処理を行うための光電 融合デバイス 光通信の短距離データ伝送への拡大 Ultra-low-power optical links Intra-data center Ultra-high-capacity data processing
  5. 9 © NTT, Inc. 2026 光通信を活用したコンピューティング基盤 ラックからデータセンター規模のリソースを分 離(ディスアグリゲート)し、分離したリソー スを要求に応じて自在に再構成する柔軟なイン フラ

    従来のサーバアーキテクチャ IOWN光コンピューティング サーバーが個別にネットワークへ接続されている - サーバー間通信では高いレイテンシーとオーバーヘッドが発 生する - また、遊休状態のデバイスが不要な電力を消費している データセンタの大きな課題である電力効率を根本から改善することを目指す
  6. 10 © NTT, Inc. 2026 IOWN光コンピューティングコンセプト Source: https://www.rd.ntt/iown_tech/post_37.html HWA-Centric computing

    Scaling up through PEC* technologies 今日はこちら *photonics-electronics convergence IOWN光コンピューティングは、ハードウェアアクセラレータ(HWA)も含む複数の要素技術を活用し、 ラック〜データセンタ規模で高効率なコンピューティングを実現することを目指している
  7. 11 © NTT, Inc. 2026 Data-Centric Infrastructure(DCI)Architecture Source: https://www.ntt-review.jp/archive/ntttechnical.php?contents=ntr202205fa3.pdf IOWN光コンピューティングを実現するため、IOWN

    Global Forumで議論 ➢ データを中心に据えて、コンピューティング資源とネットワーク(インターコネクト)資源を統合的に制御するアーキテクチャ ➢ 従来の「サーバ中心」「CPU中心」のアーキテクチャではなく、アプリケーションごとのデータパイプラインが主役 Resource pools Resource pools
  8. 12 © NTT, Inc. 2026 IOWN Global Forum IOWN Global

    Forumは160社以上のメンバと協業 Source: https://iowngf.org/ Technical reports Computing Platformの 枠組みで活動中 IOWN Global Forum Overall Architecture
  9. 13 © NTT, Inc. 2026 次世代通信規格 CXL Compute Express Link

    (CXL): ➢ Open, vendor-neutral protocol based on PCI Express ➢ Expands from in-server communication to data center- scale communication Source: https://computeexpresslink.org/ Release timeline CXL3.x features non-tree architectures • enabling peer-to-peer communications
  10. 14 © NTT, Inc. 2026 業界動向 Composable disaggregated infrastructure (CDI)

    Source:https://www.fsastech.com/ja-jp/products/primergy/solution/cdi/ Add on demand Add on demand Source: https://jpn.nec.com/cdi/index.html
  11. 16 © NTT, Inc. 2026 HWAを活用したデータパイプライン設計 Decode Input: image data

    Output: detection results Resize Object detection Design dataflow PCIe/NW PCIe/NW FPGA FPGA Resize GPU Object detection Decode Select HWAs and deploying functions Function library 大規模なストリーミングデータをリアルタイム処理するためにHWAを活用 ⇒ データパイプライン設計により、HWA主導の高性能コンピューティングを実現する ⚫ GPU、FPGA などで動作する機能ブロックを組み合わせてアプリケーションを構築 ⚫ カタログ化された機能ブロックをアプリケーション間で再利用し、開発期間を短縮 監視カメラ映像からリアルタイム人物検知を実施する例
  12. 18 © NTT, Inc. 2026 ハードウェアファンクションチェイニング Resource pool Controller software

    Benefits of eliminating CPU involvement • Improved latency and throughput • Reduced power consumption in communication HWA主導の処理を実現するためのハードウェアファンクションチェイニング(HFC) 専用コントローラでデータの流れを定義し、各HWAが自律的に転送先を判断して結果を直接 渡す仕組み FPGA Function FPGA Function GPU Function Connection control Connection control Connection control Data paths (Function chains)
  13. 20 © NTT, Inc. 2026 OpenKasugai Hardware の構成 Input data

    Block diagram Sample function circuit (Image filtering and resizing) PCIe Ether PCIe PHY Ether PHY/MAC LLDMA [DMA over PCIe] Chain control circuit TCP engine [DMA over Ether] FPGA Chain control circuit Management tables External interface Function circuit Ingress Egress FPGA Chain control circuit Management tables External interface Function circuit Ingress Egress Output results Data paths (Function chains) HFC のコンセプトを実証するために FPGA 回路を開発 ➢Chain control circuit:ファンクションチェインを識別し、結果を適切な宛先へ転送 ➢Low-latency direct device memory access (LLDMA):CPU を介さずに FPGA 間で直接 データ転送を可能にする DMA 回路
  14. 21 © NTT, Inc. 2026 HFCの動作原理 ①上流側のFPGAとプロトコルに従って通信し、 データを受信して接続IDを付与 ②接続IDに基づいてファンクションチェインを 特定し、チェインごとにデータをメモリへ格納

    ③必要なデータがすべて揃うと、ファンクショ ン回路へ転送して処理を開始 ④接続IDと管理テーブルを用いて下流側の FPGAを決定 FPGA Chain control circuit LLDMA Function circuit Classification Buffer memory Destination control Upstream FPGA Downstream FPGA ① ② ③ ④ Controller registers destination information
  15. 22 © NTT, Inc. 2026 実験構成:HFCと従来方式の比較評価 OpenKasugai ハードウェアを使い、CPU を経由した場合と直接 FPGA

    間で転送した場合の データ転送性能を比較評価 Connection control NOP #1 #2 #3 #4 #5 #6 #7 #8 Data transmitter Data receiver CPU FPGA pool HFC-based system Conventional system #1 #2 #3 #4 #5 #6 #7 #8 Data transmitter Data receiver CPU FPGA pool Input function chains with different routes
  16. 23 © NTT, Inc. 2026 評価結果:データ転送性能の大幅向上 HFC 従来構成 Latency and

    throughput results Dependent on CPU performance limitations HFC-based Conventional 1/13 HFC-based Conventional Y. Ukon, et al., “Scalable Low-latency Hardware Function Chaining with Chain Control Circuit," SC24 HFCを用いたシステムでは、FPGA数が増加しても遅延の増大やスループット低下が ほとんど見られず、性能を安定して維持 ➢ CPU: Intel Xeon Gold 6346 @ 3.10GHz, FPGA: AMD Alveo U250 ➢ Test condition: Transfer 3 GB of data in 8 KB chunks
  17. 25 © NTT, Inc. 2026 HWA-Centric Computingのデモ ①複数HWA連携時の性能向上 HFCにより、アクセラレータ同士が CPU

    を介さずに直接通信 でき、データ転送 の効率が大幅に向上。 Policy change ②柔軟なHWAリソース割り当て アプリケーションの要求に応じて、GPU / FPGA を柔軟に組み合わせて構成を変 更可能。 → 利用効率と電力効率が向上。 Conventional technology Performance bottleneck due to increased load CPU FPGA GPU FPGA FPGA GPU FPGA HFC (CPU-bypass communication) Complex Inference Lightweight inference FPGA GPU FPGA FPGA GPU FPGA FPGA FPGA GPU FPGA Allocate optimal HWA as needed GPU FPGA
  18. 26 © NTT, Inc. 2026 ユースケース:スマートシティ向け映像解析 スループットと計算効率を高めることが、システム全体の 電力効率を最大化する鍵 スマートシティにおける AI

    活用型の映像サービスの例 大規模な映像データ処理は、システム全体の電力 消費を大きく増加させる 迷子検知 救援要請の検知 歩行者数の計測 スマートシティやデジタルツインでは、大規模な映像データをリアルタイムで処理 することが求められる
  19. 27 © NTT, Inc. 2026 FPGA pool ①:リアルタイム動体検出 このシステムは、防犯カメラ映像から角の特徴量を抽出し、動く物体をリアルタイム に検出します

    ➢ HFC 技術により、グレースケール変換の処理を複数の映像ストリーム間で共有でき、さらに各ストリ ームに適したフィルタ処理を個別に適用できるようになります。 ①複数HWA連携時の性能向上 Conventional configuration FPGA FPGA FPGA FPGA CPU FPGA FPGA FPGA FPGA Grayscale conversion Filtering Corner detection Connection control Image processing
  20. 28 © NTT, Inc. 2026 システム構成 CPU FPGA pool Data

    generation Video (Full-HD) Chunking Downscaling Post-processing Screen display Overlay Shared memory Grayscale conversion Connection control Connection control Bilateral Filter Connection control Corner detection Functional and data transfer paths 2つのファンクションをつなげて、フレーム上にコーナー特徴量をリアルタイムで検出・ 重ね合わせている ➢ CPU: Intel Xeon Gold 6346 @ 3.10 GHz, FPGA: AMD Alveo U250 ➢ Test condition: Full-HD video at 20 fps Conventional system HFC-based system Connection control Thread #1 Descriptor Queue Thread #1 Descriptor Queue Thread #1 Descriptor Queue Assumed workload: network camera
  21. 29 © NTT, Inc. 2026 性能比較:HFC vs 従来方式 【Test conditions】

    • Video resolution: Full HD (1920x1080 pixels) • Input rate: 各20fps • 入力動画数: 4 • Chunk size: 2 KB • 使用FPGA数: 8 台 Performance (throughput per video)
  22. 30 © NTT, Inc. 2026 チャンクサイズ依存の性能評価結果 0 10 20 30

    40 50 0 64 128 192 256 Performance [fps/video] Chunk size [KB] HFC-based Conventional HFC を用いたシステムでは、64KB 未満の小さなチャンクサイズでのデータ転送に おいて、明確な優位性を示している The overall performance was limited by image processing. A CPU bottleneck was observed during small- chunk data transfers. *This experiment processed two videos using four FPGAs Y. Ukon, et al., “Development of Corner Detection Demonstration System using Function Chaining," IEICE General Conference 2025
  23. 31 © NTT, Inc. 2026 ②:AI人物検知 シーンに応じて、最適なHWA (FPGA/GPU) と処理機能を必要な分だけ割り当てて、 システム全体の電力効率を最大化

    ➢ CPU: Intel Xeon Gold 6346 @ 3.10 GHz, FPGA: AMD Alveo U250, GPU: NVIDIA A100, T4 ➢ Inference algorithm: YOLOv4-p6 (1280x1280, fp16), YOLOv3 (416x416, int8) Video stream 夜間:ほとんどのカメ ラに人物が映っていな い状況 Display output Power monitor FPGA FPGA Decode Preprocess (Filter / Resize) Inference (High definition) Inference (Standard) GPU GPU FPGA FPGA Decode Preprocess (Filter / Resize) Inference (High definition) GPU FPGA FPGA Display output Video stream 日中:全カメラに人物 が映っている状況 GPU and FPGA pool in the developed system Power consumption per scene 15fps x8 15fps x1 5fps x 7 Policy change ②柔軟なHWAリソース割り当て 解析精度を人通りの有無で変更 -人通りの有 ⇒15fps+高精度解析 -人通りの無 ⇒ 5fps+簡易解析
  24. 32 © NTT, Inc. 2026 電力効率評価 HWA主体の構成により、システム全体の電力効率が向上 ➢ 最適なアクセラレータを選択し、高効率な処理パイプラインを構築することで、約 60%

    の電力削減を実現 ➢ さらに、状況(シーン)に応じて処理パイプラインを動的に再構成することで、最大 75% の電力削減を達成 *Measured power consumption in conventional system (green line) with typical CPU and GPU (NVIDIA T4)-based server configurations as of 2020 (4 CPUs / 8 GPUs)
  25. 33 © NTT, Inc. 2026 リソースプーリングに利用したデバイス ➢ Falcon4210 ➢ HWAs

    • FPGA: AMD Alveo U250 • GPU: NVIDIA A100, T4 Source: https://www.elsa-jp.co.jp/products/detail/falcon-4210-4010/ 今回の実験では、PCI Express の拡張ボックスを用いることで、多数のHWAを 拡張・集約 ➢ 将来的には、より大規模な拡張を可能にする技術として CXL fabric の活用も期待 drawer1 drawer2
  26. 35 © NTT, Inc. 2026 今後の展望:HWA多様化・ユースケース拡大へ • NTTが開発を進めているIOWN光コンピューティング —— その一要素であるHWAリソース

    プールを効果的に活用するため、HWA 中心の計算を支える HFC(ハードウェアファンクショ ンチェイニング)を提案 • HWA間の自律的な通信により、レイテンシとスループットを改善 • データ転送に伴う電力消費を削減 • HFC を用いたデモシステムを開発 • 動態検出システム:システムレベルでの HFC の有効性を確認 • 監視カメラ AI 人物検知システム:HWAの柔軟な再構成により 電力効率を大幅改善 【今後の方向性】 • FPGA / GPU / xPU など 多様な HWA に対応したシステムの開発 • サポート機能やアプリケーション ユースケースの拡大 GitHub –OpenKasugai- Please give it a try! ☺