NVIDIA Magnum IO

数据中心 IO 加速平台

加速数据中心 IO 性能,随时随地助力 AI

很多公司都在完善自己的数据,向智能生产商迈进。加速计算将计算速度提高了百万倍,使数据中心逐步演变为 AI 工厂。然而,加速计算需要加速 IO。NVIDIA Magnum IO™ 架构为并行智能数据中心 IO 而设计。该架构最大限度地提升存储、网络、多节点和多GPU通讯性能,为大型语言模型、推荐系统、成像、仿真和科学研究等全球重要的应用优化实现加速。

NVIDIA Magnum IO 优化堆栈

NVIDIA Magnum IO 整合存储 IO、网络 IO、网络计算和 IO 管理,简化并加速多 GPU、多节点系统的数据传输、访问和管理。Magnum IO 支持 NVIDIA CUDA-X™ 库,并充分利用各类 NVIDIA GPU 和 NVIDIA 网络硬件拓扑来实现更高的吞吐量和更低的延迟。

 [开发者博客] Magnum IO:加速现代数据中心内的 IO

Magnum IO Optimization Stack

存储 IO

在多 GPU、多节点系统中,运行缓慢的 CPU 单线程性能严重影响了从本地或远程存储设备访问数据的效率。借助存储 IO 加速,GPU 可跳过 CPU 和系统内存,通过八个 200Gb/s 的网卡直接访问远程存储,实现高达 1.6Tb/s 的裸存储带宽。

相关技术包括:

网内计算

网络计算可实现网络内数据处理,减少了数据在网络中的传输次数并降低延迟。数据处理器 (DPU) 引入了采用软件定义和网络硬件加速的计算技术,包含预配置的数据处理引擎和可编程引擎。

相关技术包括:

IO 管理

为了实现计算、网络和存储等各类 IO 优化,用户需要遥测技术的深度支持,以及先进的故障排除技术。Magnum IO 管理平台可助力科研和企业数据中心操作人员对现代数据中心架构进行高效预配、监控与管理以及预防性维护。

相关技术包括:

跨数据中心应用加速 IO

NVIDIA Magnum IO 可与 NVIDIA 高性能计算 (HPC) 和 AI 库交互,为 AI 和科学可视化等领域的各类用例加速 IO。

  • 数据分析
  • 高性能计算
  • 深度学习 (训练/ 推理)
  • 渲染和可视化
Data Analytics

数据分析

目前,数据科学和机器学习 (ML) 是计算能力需求巨大的领域。预测式机器学习模型准确性的每一次微小提升,都能带来数十亿美元的价值回报。

Magnum IO 库和数据分析工具

为提升准确性,RAPIDS™ 加速器库基于 UCX 构建了内置 Apache Spark Shuffle,可配置使用 RDMA 实现 GPU 对 GPU 的高效通信。通过整合 NVIDIA 网络、NVIDIA Magnum IO 软件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™ ��NVIDIA 数据中心平台具有独特的优势,能够以出色的性能和效率加速大规模工作负载。

GPUDirect Storage (GDS) 已与 RAPIDS 集成,为 ORC、Parquet、CSV 和 Avro reader等加速。在大规模工作流中使用 GDS, Parquet 文件访问使用 RAPIDS CuIO 实现了高达 4.5 倍的性能提升。

Adobe 借助 Spark 3.0, 在 Databricks 上将模型训练速度提升了七倍,同时节省了 90% 的成本

High Performance Computing

高性能计算

为点燃新一代发现的火花,科学家们希望通过仿真,更好地理解复杂分子结构以支持药物研发,理解物理现象以寻找新能源,理解大气数据以更好地预测极端天气状况。领先的仿真和应用利用 NVIDIA Magnum IO 来加速探索进程。Magnum IO 提供硬件级加速引擎和智能卸载,例如 RDMA、NVIDIA GPUDirect 和 NVIDIA SHARP 功能,同时支持超高带宽、超低延迟的 NVIDIA InfiniBand 和 NVIDIA NVLink 网络。

在多租户环境中,用户应用可能并不知晓相邻应用流量的无差别干扰。在新一代的 NVIDIA Quantum-2 InfiniBand 平台上, Magnum IO 带来一个新的改进功能,用以减轻流量干扰对用户性能的负面影响。这可以实现比较理想的性能,并做到在任何规模下,都能高效部署 HPC 和机器学习应用。

Magnum IO 库和 HPC 应用

用 NCCL 替换 MPI 可以显著提升 VASP 的性能。UCX 可以加速 VASP、Chroma、MIA-AI、Fun3d、CP2K 和 Spec-HPC2021 等科学计算应用,从而缩短运行时间。  

NVIDIA HPC-X 可以提高 CPU 可用性、应用可扩展性和系统效率,从而提高应用性能,并已经获得多种 HPC ISV 的支持。NCCL、UCX 和 HPC-X 均为 HPC-SDK 的组成部分。

快速傅里叶变换 (FFT) 广泛应用于分子动力学、信号处理、计算流体动力学 (CFD)、无线多媒体和 ML 应用等各个领域。在 NVIDIA Shared Memory Library (NVSHMEM)™ 的助力下,cuFFTMp 可独立于 MPI 实现,实现了极致性能。这一点尤为重要,因为不同 MPI 的性能可能会有很大差异。

定性数据分析 (QUDA) 格点量子色动力学库可以使用 NVSHMEM 进行通信,以减少 CPU 和 GPU 同步产生的开销并改善计算和通信的重叠度,从而减少延迟并提高扩展性。

 多节点多 GPU:大规模应用 NVIDIA cuFFTMp FFT

 大规模交互式立体数据可视化:150TB 的 NASA 火星着陆器仿真

Deep Learning

深度学习

新兴的百亿亿次级 (Exascale) HPC 和万亿级参数的 AI 模型,比如超越人类的对话式 AI 模型,即使采用超级计算机,也需要数月时间才能完成训练。为了加快业务速度,在几天内完成训练,需要在服务器集群中的每个 GPU 之间建立高速、无缝的通信,以便集群能够扩展性能。将 NVIDIA NVLink、NVIDIA NVSwitch、NVIDIA Magnum IO 库和跨服务器的强扩展相结合,可在混合专家模型 (MoE) 上将 AI 训练速度提升高达 9 倍,从而使研究人员能够以业务速度训练大型模型。

Magnum IO 库和深度学习集成

NCCL 和其他 Magnum IO 库透明地利用最新的 NVIDIA H100 GPU、NVLink、NVSwitch和 InfiniBand 网络,显著加速深度学习工作负载,在推荐系统和大型语言模型训练方面效果尤为突出。  

  • NCCL 的优势包括更快地获得模型训练准确性,在分布式环境中的服务器之间实现近 100% 的通信带宽。

  • 借助 Numpy reader 运算符,开发者可在 Data Loading Library (DALI) 中使用 Magnum IO GPUDirect Storage (GDS)。与基准 Numpy 相比,DALI 结合 GDS 可将深度学习推理的性能提升高达 7.2 倍。 


推动研究人员利用强大的性能和良好的可扩展性,不断地在 AI 领域取得突破性进展。将 NVIDIA Quantum-2 InfiniBand 网络、 NVLink、NVSwitch 和 Magnum IO 软件堆栈相结合,可为数百乃至数千个同时运行的 GPU 提供开箱即用的可扩展性。  

 与 MPI 相比,LBANN 借助NVSHMEM 将 性能提升 1.9 倍。

Rendering and Visualization

渲染和可视化

GPU 用于加速从直播画面到实时��体图像重建等一系列应用中的复杂而耗时的任务。

NVIDIA GPUDirect for Video 技术支持第三方硬件与 NVIDIA GPU 进行高效通信,并可大幅减少历来的延迟问题。借助 NVIDIA GPUDirect for Video 技术,IO 设备可以与 GPU 和 CPU 完全同步,从而尽可能缩短在设备驱动之间复制数据所耗用的时间周期。

GPUDirect Storage (GDS) 已经实现与 cuCIM 的集成,这是一个专注于生物医学成像的可扩展工具包,旨在为 N 维图像提供 GPU 加速的 IO、计算机视觉和图像处理基元。   

在以下两个示例中,NVIDIA IndeX® 与 GDS 一起用于加速超大型数据集的可视化。

 借助 NVIDIA Clara™ Holoscan 实时可视化活细胞的显微图像

 大规模交互式立体数据可视化:150TB 的 NASA 火星着陆器仿真

注册以接收 NVIDIA Magnum IO 新闻和动态消息。