NVIDIA Magnum IO

La plataforma de aceleración de IO para el centro de datos

Acelera el IO del centro de datos
Rendimiento para IA en todas partes

Las empresas están refinando tus datos y convirtiéndose en fabricantes de inteligencia. Los centros de datos se están convirtiendo en fábricas de IA habilitadas por la computación acelerada, que ha acelerado la computación en un millón de veces. Sin embargo, la computación acelerada requiere IO acelerada. NVIDIA Magnum IO™ es la arquitectura para IO de centro de datos paralelos e inteligentes. Maximiza las comunicaciones multi-GPU, de red y multinodo para las aplicaciones más importantes del mundo, utilizando modelos de lenguaje de gran tamaño, sistemas de recomendación, imágenes, simulación e investigación científica.

Pila de optimización de NVIDIA Magnum IO

NVIDIA Magnum IO utiliza IO de almacenamiento, IO de red, computación en red y gestión de IO para simplificar y acelerar el movimiento de datos, el acceso y la gestión de sistemas multi-GPU y multinodo. Magnum IO es compatible con las bibliotecas de NVIDIA CUDA-X™ y aprovecha al máximo la GPU NVIDIA y las topologías de hardware de red NVIDIA para lograr un rendimiento óptimo y una baja latencia.

[Blog de desarrollador] Magnum IO: Aceleración de IO en centros de datos modernos

IO de almacenamiento

En sistemas multinodo y multi-GPU, el rendimiento lento de la CPU y el único subproceso se encuentra en el camino crítico del acceso a los datos desde los dispositivos de almacenamiento locales o remotos. Con la aceleración de IO de almacenamiento, la GPU elude la CPU y la memoria del sistema, y accede al almacenamiento remoto a través de 8 tarjetas de interfaz de red (NIC) de 200 GB/s, con lo que se consiguen hasta 1,6 TB por segundo de ancho de banda de almacenamiento sin procesar.

Tecnologías incluidas:

NVIDIA Magnum IO GPUDirect^® Storage ›

NVIDIA NVMe SNAP^™ ›

IO de red

NVIDIA NVLink®, NVIDIA Quantum InfiniBand, las redes Ethernet y la aceleración de IO de red basada en RDMA reducen la sobrecarga de IO, con lo que se omite la CPU y se habilita la GPU directa con las transferencias de datos en la GPU a velocidades de línea.

Tecnologías incluidas:

Data Plane Development Kit ›

NVIDIA GPUDirect RDMA ›

NVIDIA® HPC-X® ›

NVIDIA Collective Communication Library (NCCL) ›

NVIDIA Shared Memory Library ›

UCX ›

Conmutación y procesamiento de paquetes acelerados^® (ASAP²) ›

Computación en red

La computación en red ofrece un procesamiento dentro de la red, lo que elimina la latencia que se introduce al atravesar las terminales y cualquier salto a lo largo del trayecto. Las unidades de procesamiento de datos (DPU) introducen la computación definida por software y acelerada por hardware de red, que incluye motores de procesamiento de datos preconfigurados y motores programables.

Tecnologías incluidas:

NVIDIA^® BlueField DPU^® ›

Coincidencia de etiquetas MPI ›

Protocolo escalable de reducción y agregación jerárquica de NVIDIA^® (SHARP)^™ ›

Gestión de IO

Para ofrecer optimizaciones de IO a través de la computación, la red y el almacenamiento, los usuarios necesitan técnicas avanzadas de telemetría y solución de problemas. Las plataformas de gestión de Magnum IO permiten a los operadores de centros de datos industriales y de investigación aprovisionar, supervisar, gestionar y mantener preventivamente el tejido del centro de datos moderno.

Tecnologías incluidas:

NVIDIA NetQ^™ ›

NVIDIA^® UFM^® ›

Aceleración de IO en aplicaciones del centro de datos

Magnum IO interactúa con las bibliotecas NVIDIA CUDA-X para inteligencia artificial (IA) y computación de alto rendimiento (HPC) que aceleran la IO en una amplia gama de casos de uso, desde la inteligencia artificial a la visualización científica.

Análisis de datos
Informática de alto rendimiento
Deep Learning (Inferencia/Entrenamiento)
Renderizado y visualización

Análisis de datos

Actualmente, la ciencia de datos y el aprendizaje automático (ML) son los mayores segmentos de computación del mundo. Modestas mejoras en la precisión de los modelos predictivos de ML pueden convertirse en miles de millones de dólares en el balance final.

Bibliotecas Magnum IO y herramientas de análisis de datos

Para mejorar la precisión, la biblioteca de RAPIDS™ Accelerator lleva incorporada una implementación aleatoria de Apache Spark acelerada que se basa en UCX y se puede configurar para aprovechar la comunicación de GPU a GPU y las capacidades de RDMA. Gracias a la combinación de la conexión a red NVIDIA, el software NVIDIA Magnum IO, Spark 3.0 acelerado por GPU y RAPIDS, la plataforma de centro de datos NVIDIA se encuentra en una posición única para acelerar estas enormes cargas de trabajo con niveles de rendimiento y eficiencia sin precedentes.

GPUDirect Storage (GDS) se ha integrado con RAPIDS para lectores ORC, Parquet, CSV y Avro. RAPIDS CuIO ha logrado una mejora del rendimiento de hasta 4,5 veces con los archivos Parquet utilizando GDS en flujos de trabajo a gran escala.

Adobe multiplica por siete la aceleración del entrenamiento de modelos con Spark 3.0 en Databricks con un ahorro del 90 % en costes

Informática de alto rendimiento

Para hacer descubrimientos de próxima generación, los científicos dependen de la simulación para comprender mejor las moléculas complejas de cara al descubrimiento de fármacos, de la física en busca de nuevas fuentes de energía y de los datos atmosféricos con objeto de predecir mejor los patrones climáticos extremos. Las principales aplicaciones y simulaciones aprovechan NVIDIA Magnum IO para acelerar el tiempo de obtención de información. Magnum IO expone motores de aceleración a nivel de hardware y descargas inteligentes, como RDMA, NVIDIA GPUDirect y NVIDIA SHARP, a la vez que refuerza el ancho de banda alto y la latencia ultrabaja de las GPU en red NVIDIA InfiniBand y NVIDIA NVLink.

En los entornos multiinquilino, las aplicaciones de usuario pueden no ser conscientes de la interferencia indiscriminada del tráfico de aplicaciones vecinas. Magnum IO, en la última plataforma NVIDIA Quantum 2 InfiniBand, presenta capacidades nuevas y mejoradas para mitigar el impacto negativo en el rendimiento del usuario. Esto ofrece resultados óptimos, así como las implementaciones de HPC y aprendizaje automático más eficientes a cualquier escala.

Bibliotecas Magnum IO y aplicaciones HPC

El rendimiento de VASP mejora significativamente cuando se sustituye MPI por NCCL. UCX acelera aplicaciones de computación científica, como VASP, Chroma, MIA-AI, Fun3d, CP2K y Spec-HPC2021, para conseguir tiempos de ejecución más rápidos.

NVIDIA HPC-X aumenta la disponibilidad de la CPU, la escalabilidad de las aplicaciones y la eficiencia del sistema para mejorar el rendimiento de las aplicaciones, que están distribuidos por varios ISV de HPC. NCCL, UCX y HPC-X forman parte del HPC-SDK.

Las transformaciones rápidas de Fourier (FFT) se utilizan ampliamente en diversos campos, desde la dinámica molecular, el procesamiento de señales y la dinámica de fluidos computacional (CFD) hasta aplicaciones inalámbricas multimedia y de ML. Al utilizar la biblioteca de memoria compartida de NVIDIA (NVSHMEM)™, cuFFTMp es independiente de la implementación de MPI y funciona más cerca de la velocidad de la luz, lo que es fundamental, ya que el rendimiento puede variar significativamente de un MPI a otro.

La biblioteca de cromodinámica cuántica reticular de análisis de datos cualitativo (QUDA) puede usar NVSHMEM para la comunicación a fin de reducir las sobrecargas de la sincronización de CPU y GPU, y mejorar la superposición de computación y comunicación. Esto reduce las latencias y mejora un escalado potente.

Multinodo Multi-GPU: uso de NVIDIA cuFFTMp FFT a escala

La visualización de volúmenes interactiva más grande del mundo: simulación de aterrizaje en Marte de la NASA (150 TB)

Deep Learning

La clase emergente de HPC a exaescala y modelos de IA con billones de parámetros para tareas como la IA conversacional sobrehumana requiere meses de entrenamiento, incluso en superordenadores. Comprimir esto a la velocidad de la empresa para completar la formación en cuestión de días requiere una comunicación rápida y fluida entre todas las GPU de un clúster de servidores, para que puedan escalar el rendimiento. La combinación de NVIDIA NVLink, NVIDIA NVSwitch, bibliotecas NVIDIA Magnum IO y un escalado potente entre servidores ofrece aceleraciones de entrenamiento de IA de hasta 9 veces en modelos de mezcla de expertos (MoE). Esto permite a los investigadores entrenar modelos masivos a la velocidad de la empresa.

Bibliotecas Magnum IO e integraciones de deep learning

NCCL y otras bibliotecas de Magnum IO aprovechan con transparencia la última GPU NVIDIA H100, NVLink, NVSwitch y las redes InfiniBand para proporcionar un aumento significativo de la velocidad de las cargas de trabajo de deep learning, especialmente sistemas de recomendación y entrenamiento de modelos de lenguaje de gran tamaño.

Las ventajas de NCCL incluyen un tiempo más rápido para modelar la precisión del entrenamiento, al tiempo que se logra un ancho de banda de interconexión cercano al 100 % entre servidores en un entorno distribuido.

Se ha habilitado el almacenamiento GPUDirect (GDS) de Magnum IO en la biblioteca de carga de datos (DALI) a través del operador de lectura Numpy. GDS multiplica por 7,2 el aumento del rendimiento de la inferencia de deep learning con DALI en comparación con la línea base de Numpy.

Permitir que los investigadores sigan ampliando los límites de lo que es posible con la inteligencia artificial requiere un rendimiento potente y una enorme escalabilidad. La combinación de redes NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch y la pila de software de Magnum IO ofrece escalabilidad inmediata para cientos de miles de GPU que operan juntas.

El rendimiento aumenta 1,9 veces en LBANN con NVSHMEM frente a MPI

Renderizado y visualización

Las GPU se utilizan para acelerar tareas complejas y que requieren mucho tiempo en una amplia gama de aplicaciones, desde gráficos en directo hasta reconstrucción de imágenes estereoscópicas en tiempo real.

La tecnología NVIDIA GPUDirect for Video permite que el hardware de terceros se comunique de forma eficiente con las GPU NVIDIA y minimice los problemas de latencia históricos. Con NVIDIA GPUDirect for Video, los dispositivos IO se sincronizan completamente con la GPU y la CPU para minimizar la pérdida de ciclos al copiar datos entre los controladores del dispositivo.

GPUDirect Storage (GDS) se integra con cuCIM, un kit de herramientas extensible diseñado para proporcionar IO acelerada en la GPU, visión computarizada y primitivas de procesamiento de imágenes para imágenes N-dimensionales con especial atención a las imágenes biomédicas.

En los dos ejemplos siguientes, NVIDIA IndeX® se utiliza con GDS para acelerar la visualización de conjuntos de datos muy grandes involucrados.

Imágenes de microscopio de células vivas en tiempo real con Clara™ Holoscan

La mayor visualización interactiva de volúmenes: simulación de aterrizaje en Marte de 150 TB de la NASA

Recursos

> GitHub de Magnum IO de NVIDIA
> NVIDIA GPUDirect Storage: ruta directa entre el almacenamiento y la memoria de la GPU
> Aceleración de IO en centros de datos modernos: IO de red
> Acelerar colectivos basados en equipo NVSHMEM 2.0 con NCCL
> Optimización del movimiento de datos en aplicaciones de GPU con el entorno de desarrollo NVIDIA Magnum IO
> Aceleración de la supercomputación nativa de la nube con Magnum IO
> Acceso al MOFED

Regístrate para recibir noticias y actualizaciones de NVIDIA Magnum IO.

NVIDIA Magnum IO

Acelera el IO del centro de datos Rendimiento para IA en todas partes

Pila de optimización de NVIDIA Magnum IO

IO de almacenamiento

IO de red

Computación en red

Gestión de IO

Aceleración de IO en aplicaciones del centro de datos

Análisis de datos

Bibliotecas Magnum IO y herramientas de análisis de datos

Informática de alto rendimiento

Deep Learning

Renderizado y visualización

Recursos

OBTÉN LA ÚLTIMA VERSIÓN DE MAGNUM IO

NVIDIA GPUDirect Storage (GDS)

Procesamiento acelerado de red definido por software de NVIDIA NVMe (SNAP)

Data Plane Development Kit (DPDK)

NVIDIA GPUDirect RDMA (GDR)

NVIDIA HPC-X

NVIDIA Collective Communication Library (NCCL)

NVIDIA Shared Memory Library (NVSHMEM)

UCX

Conmutación y procesamiento de paquetes acelerados® (ASAP2)

Unidad de procesamiento de datos (DPU) NVIDIA® BlueField DPU®

Coincidencia de etiquetas MPI

NVIDIA SHARP

NVIDIA NetQ

NVIDIA Unified Fabric Manager (UFM)

Acelera el IO del centro de datos
Rendimiento para IA en todas partes

Conmutación y procesamiento de paquetes acelerados^® (ASAP²)

Unidad de procesamiento de datos (DPU) NVIDIA^® BlueField DPU^®