Upgrade to Pro — share decks privately, control downloads, hide ads and more …

400G時代のIPネットワーク屋も知っとくと役立つストレージネットワーキング

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for taji taji
July 25, 2019

 400G時代のIPネットワーク屋も知っとくと役立つストレージネットワーキング

Avatar for taji

taji

July 25, 2019
Tweet

More Decks by taji

Other Decks in Technology

Transcript

  1. 6 of Y ボトルネックはどこだ? →ちょっと前までディスクだった 0 5 10 15 1000x

    FRONT-END CONNECT BACK-END CONNECT STORAGE CONTROLLER 7200 RPM PHYSICAL STORAGE CLIENTS / HOSTS Response Time (ms) 回転ディスク
  2. 7 of Y Response Time (ms) FRONT-END CONNECT BACK-END CONNECT

    STORAGE CONTROLLER CLIENTS / HOSTS PHYSICAL STORAGE 0 0.1 0.2 0.3 0.4 0.5 ボトルネックはどこだ? →クライアント側になった Flash
  3. 8 of Y より広帯域が求められる時代に Throughput (MB/s) FRONT-END CONNECT BACK-END CONNECT

    STORAGE CONTROLLER CLIENTS / HOSTS PHYSICAL STORAGE 0 2,000 4,000 6,000 8,000 FC: 16Gb/S PCIE: 985MB/S SAS: 600MB/S SSD: 1420MB/S APP: 5,600 MB/S 4 6 10 4 +1 MANY QUEUES MANY QUEUES OVER FABRIC
  4. 9 of Y より広帯域が求められる時代に Throughput (MB/s) FRONT-END CONNECT BACK-END CONNECT

    STORAGE CONTROLLER CLIENTS / HOSTS PHYSICAL STORAGE 0 2,000 4,000 6,000 8,000 FC: 16Gb/S PCIE: 985MB/S SAS: 600MB/S SSD: 1420MB/S APP: 5,600 MB/S 4 6 10 4 +1 MANY QUEUES MANY QUEUES OVER FABRIC NVMe Over Fabrics NVMe
  5. 10 of Y NVMe over Fabrics • NVMe over Fabrics

    – NVMeブロックストレージ・プロトコルを、ストレー ジネットワーク・ファブリックに拡張する – 2016年6月に仕様 1.0 が公開 – NVMeデバイスを大量に扱う、(データセンター内 で)離れた場所のNVMeデバイスにアクセスす る、、、等 • 2019年1月に、あらたにNVMe over TCP(NVMe/TCP) が批 准された – NVMe-oF 1.1 の仕様ドキュメントに統合予定 › Later 2019 ? http://www.nvmexpress.org/wp-content/uploads/NVMe_Over_Fabrics.pdf NVMe™ Host Software Host Side Transport Abstraction Controller Side Transport Abstraction Fibre Channel InfiniBand* RoCE iWARP Next Gen Fabrics TCP 2019/1- https://nvmexpress.org/answering-your-questions-nvme-tcp-what-you-need-to-know-about-the-specification-webcast-qa/
  6. 11 of Y 「ファブリック(Fabrics)」ってなに? • Firbre Channel – 昔も今も広く使われてる。 •

    InfiniBand (RDMA) – 広帯域、低遅延をいかして、組み込み用途、特にHPC – ストレージ内部だけでなくサーバとの接続にも • IP/Ethernet RDMA: RoCEv2 , iWARP – RoCEv2: 発音ロッキー、UDP/IPベース、ロスレスConverged Ethernet推奨 › V1はL2、v2と互換性なし – iWARP: TCP/IPベース、実質的にHW実装が必要、普及してない – NICインプリが推奨 • IP/Ethernet non-RDMA: TCP/IP – ソフトウェアベース、NICのTCPオフロードで高速化 New!
  7. 13 of Y そう単純にはいかない • The NVMe Transport shall provide

    reliable delivery of capsules between a host and NVM subsystem (and allocated controller) over each connection. The NVMe Transport may deliver command capsules in any order on each queue except for I/O commands that are part of fused operations (refer to section 4.10 of the NVMe Base specification). http://nvmexpress.org/wp-content/uploads/NVMe_over_Fabrics_1_0_Gold_20160605.pdf 7.1 Transport Requirements
  8. 14 of Y そう単純にはいかない • The NVMe Transport shall provide

    reliable delivery of capsules between a host and NVM subsystem (and allocated controller) over each connection. The NVMe Transport may deliver command capsules in any order on each queue except for I/O commands that are part of fused operations (refer to section 4.10 of the NVMe Base specification). http://nvmexpress.org/wp-content/uploads/NVMe_over_Fabrics_1_0_Gold_20160605.pdf 7.1 Transport Requirements 「トランスポートは十分信頼性があるものにしろよ」
  9. 16 of Y NVMe over Ethernet RoCE – ベストなオペレーションには、ロスレスネットワーク(特別なハードウェア)の用意が必要。 (Mellanox

    and Emulexがサポート) iWARP – 複雑なハード/ソフトのスタックでよりCPUリソースの消費と、現時点では10Gbのみ。 ( Chelsio and Intelがサポート:サポートOSが少ない) TCP – 標準のスイッチとシンプルなTCPスタックを利用。プロポーザルが内部で批准されたばかり。 NVMe oFの V1.1 に盛り込まれる予定
  10. 17 of Y NVMe over TCP • NVMe-oFコマンドを 標準のTCP/IPで運ぶ •

    各キューペアをTCP コネクションにマップ • TCPがNVMeキュー モデルのトランスポー トレイヤの信頼性を担 保する
  11. 18 of Y NVMe-oF プロトコル的な観点 RoCE TCP 速度 相互接続性 汎用的なNICサポート

    (TCPオフロード) 固有のNICサポート (RoCEv2) Ethernetの管理の難しさの課題も!
  12. 21 of Y 結論的なこと • トランスポートはより広帯域化してくる • パイプが太けりゃいいってもんじゃない • End-Endでボトルネック解消を考える:NVMe

    • 比較検討のポイント • トランスポートメディア:FibreChannel、Ethernet • プロトコル:FC、RoCE、TCP • 既存設備と今後の標準仕様を見据えたTCO