先进的 AI 计算平台。
AI、复杂模拟和海量数据集需要多个具有极快互连速度的 GPU 和完全加速的软件堆栈。NVIDIA HGX™ AI 超级计算平台整合了 NVIDIA GPU、 NVLink®、NVIDIA 网络以及全面优化的 AI 和高性能计算 (HPC) 软件堆栈的全部功能,可提供最高的应用性能并加快获得见解的速度。
NVIDIA HGX B200 和 HGX B100 将 NVIDIA Blackwell Tensor Core GPU 与高速互连技术相集成,推动数据中心迈向加速计算和生成式 AI 的新时代。基于 Blackwell 的 HGX 系统是一流的加速纵向扩展平台,其推理性能比上一代提高了 15 倍,专为要求严苛的生成式 AI、数据分析和 HPC 工作负载而设计。
NVIDIA HGX H200 将 H200 Tensor Core GPU 与高速互连技术相结合,为每个数据中心提供出色的性能、可扩展性和安全性。它配置了多达 8 个 GPU,在实现出色加速的同时更是提供了令人惊叹的 32 petaFLOPS 性能,为 AI 和 HPC 领域打造出性能强劲的加速垂直扩展式服务器平台。HGX H200 和 HGX H100 均提供高级网络选项,速度最高可达 400 Gb/s,凭借 NVIDIA Quantum-2 InfiniBand 和 Spectrum™-X 以太网实现出色的 AI 性能
HGX H200 和 HGX H100 还集成了 NVIDIA® BlueField®-3 数据处理器 (DPU),有助于在超大规模 AI 云中实现云网络、可组合存储、零信任安全性和 GPU 计算弹性。
预测性能可能会发生变化。Token 至 Token 延迟 (TTL) = 50 毫秒(实时),第一个 Token 延迟 (FTL) = 5 秒,输入序列长度 = 32768,输出序列长度 = 1028,8 个 8 路 NVIDIA HGX™ H100 GPU
对于 GPT-MoE-1.8T 等大规模模型,HGX B200 可实现的推理性能比上一代 NVIDIA Hopper™ 提升了 15 倍。第二代 Transformer 引擎采用定制的 Blackwell Tensor Core 技术,并结合 TensorRT™-LLM 和 Nemo™ 框架创新,加速了大语言模型 (LLM) 和多专家 (MoE) 模型的推理。
预计性能可能会发生变化。32768 GPU 规模、4096 个 8 路 HGX H100 风冷式集群:400G InfiniBand (IB) 网络;4096 个 8 路 HGX B200 风冷式集群:400G IB 网络。
第二代 Transformer 引擎采用 8 位浮点 (FP8) 和新精度,可使 GPT-MoE-1.8T 等大型语言模型的训练速度显著提升 3 倍。这一突破还得到了第五代 NVLink 的强力加持,这一代 NVLink 可提供速度为 1.8TB/s 的 GPU 间直接互连、InfiniBand 网络和 NVIDIA Magnum IO™ 软件。这些因素将共同确保企业和广泛的 GPU 计算集群具备高效的可扩展性。
数据中心是新的计算单元,而网络在大幅提升整个数据中心的应用性能方面发挥着不可或缺的作用。与 NVIDIA Quantum InfiniBand 搭配使用时,HGX 可提供卓越的性能和效率,确保计算资源得到充分利用。
对于部署以太网的 AI 云数据中心,最好将 HGX 与 NVIDIA Spectrum-X 网络平台结合使用,该平台可通过 400Gb/s 以太网助力实现超高 AI 性能。Spectrum-X 采用 NVIDIA Spectrum™-4 交换机和 BlueField-3 DPU,能够借助超高的资源利用率和卓越的性能隔离,为各种规模、数以千计的并发 AI 作业提供一致且可预测的结果。Spectrum-X 有助于实现先进的云多租户技术和出色的零信任安全性。作为 NVIDIA Spectrum-X 的参考设计,NVIDIA 设计了 Israel-1。Israel-1 是一款超大规模的生成式 AI 超级计算机,采用基于 NVIDIA HGX H200 或 H100 平台(8 个 GPU)、BlueField-3 DPU 和 Spectrum-4 交换机的 Dell PowerEdge XE9680 服务器构建。
NVIDIA Quantum-2 InfiniBand 平台 : Quantum-2 交换机, ConnectX-7 适配器, BlueField-3 DPU |
NVIDIA Spectrum-X 平台 : Spectrum-4 交换机,BlueField-3 DPU , Spectrum-X 许可证 |
NVIDIA Spectrum 以太网平台 : Spectrum 交换机,ConnectX 适配器,BlueField DPU |
|
---|---|---|---|
深度学习训练 | 最佳 | 更佳 | 适用 |
科学计算模拟 | 最佳 | 更佳 | 适用 |
数据分析 | 最佳 | 更佳 | 适用 |
深度学习推理 | 最佳 | 更佳 | 适用 |
NVIDIA HGX 采用单一基板,配备 4 个 H200 或 H100 GPU 或是 8 个 H200、H100、B200 或 B100 GPU。这些强大的硬件和软件组合为打造强劲的 AI 超级计算平台奠定了基础。
HGX B200 | HGX B100 | |
---|---|---|
GPUs | HGX B200 8-GPU | HGX B100 8-GPU |
外形规格 | 8x NVIDIA B200 SXM | 8x NVIDIA B100 SXM |
HPC 和 AI 计算 (FP64/TF32/FP16/FP8/FP4)* | 320TF/18PF/36PF/72PF/144PF | 240TF/14PF/28PF/56PF/112PF |
显存 | 最高可达 1.5TB | 最高可达 1.5TB |
NVIDIA NVLink | 第五代 | 第五代 |
NVIDIA NVSwitch™ | 第四代 | 第四代 |
NVSwitch 互联 GPU 间带宽 | 1.8TB/s | 1.8TB/s |
聚合总带宽 | 14.4TB/s | 14.4TB/s |
* HGX H200 | ||||
---|---|---|---|---|
4-GPU | 8-GPU | |||
GPUs | HGX H200 4-GPU | HGX H200 8-GPU | ||
外形规格 | 4x NVIDIA H200 SXM | 8x NVIDIA H200 SXM | ||
FP8/FP6 Tensor Core | 16 PFLOPS | 32 PFLOPS | ||
INT8 Tensor Core | 16 POPS | 32 POPS | ||
FP16/BFLOAT16 Tensor Core | 8 PFLOPS | 16 PFLOPS | ||
TF32 Tensor Core | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
FP64 Tensor Core | 270 TFLOPS | 540 TFLOPS | ||
显存 | Up to 564GB | Up to 1.1TB | ||
NVLink | 第四代 | 第四代 | ||
NVSwitch | N/A | 第三代 | ||
NVSwitch GPU 到 GPU 的带宽 | N/A | 900GB/s | ||
总聚合带宽 | 3.6TB/s | 7.2TB/s |
* HGX H100 | ||||
---|---|---|---|---|
4-GPU | 8-GPU | |||
GPUs | HGX H100 4-GPU | HGX H100 8-GPU | ||
外形规格 | 4x NVIDIA H100 SXM | 8x NVIDIA H100 SXM | ||
HPC 和 AI 计算 (FP64/TF32/FP16/FP8/INT8)* | 268TF/4PF/8PF/16PF/16 POPS | 535TF/8PF/16PF/32PF/32 POPS | ||
FP8/FP6 Tensor Core | 16 PFLOPS | 32 PFLOPS | ||
INT8 Tensor Core | 16 POPS | 32 POPS | ||
FP16/BFLOAT16 Tensor Core | 8 PFLOPS | 16 PFLOPS | ||
TF32 Tensor Core | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
FP64 Tensor Core | 270 TFLOPS | 540 TFLOPS | ||
显存 | Up to 320GB | Up to 640GB | ||
NVLink | 第四代 | 第四代 | ||
NVSwitch | N/A | 第三代 | ||
NVLink Switch | N/A | N/A | ||
NVSwitch GPU 到 GPU 的带宽 | N/A | 900GB/s | ||
总聚合带宽 | 3.6TB/s | 7.2TB/s |
* 采用稀疏技术