Apache Spark™ acelerado por GPU

Para canalizaciones de análisis de datos, aprendizaje automático y aprendizaje profundo

Acelera mediante GPU tus procesos de ciencia de datos de Apache Spark™ 3 (sin cambios en el código). Además, agiliza el procesamiento de datos y el entrenamiento de modelos, a la vez que reduces sustancialmente los costes de infraestructura.

 

Principales ventajas de Spark en GPU de NVIDIA

Tiempo de ejecución más rápido

Tiempo de ejecución más rápido

Acelera el rendimiento de las tareas de preparación de datos para pasar rápidamente a la siguiente fase. Esto permite que se entrenen los modelos de forma más rápida, al tiempo que se libera a los ingenieros y científicos de datos para centrar la atención en las actividades más críticas.

Optimizar los análisis para IA

Optimizar los análisis para IA

Spark 3 organiza canalizaciones de extremo a extremo, desde la adquisición de datos hasta el entrenamiento de modelos y la visualización. La misma infraestructura acelerada por GPU se puede utilizar para los entornos de trabajo Spark y de aprendizaje automático o profundo, lo que elimina la necesidad de usar clústeres independientes y proporciona acceso a toda la canalización a la aceleración por GPU.

Costes de infraestructura reducidos

Costes de infraestructura reducidos

Logra más con menos: Spark en las GPU de NVIDIA® completa tareas de forma más rápida y con menos hardware en comparación con las CPU, lo que ahorra tiempo a las organizaciones, así como costes de capital locales o costes operativos en la nube.

Información inicial

Información inicial

Utiliza la herramienta inteligente de optimización de cargas de trabajo para calificar y calcular los beneficios de coste para las cargas de trabajo de Apache Spark™ que son adecuadas para la aceleración por GPU. Dicha herramienta recomienda parámetros de GPU optimizados para ahorrar costes y rendimiento.

Talleres

Acelera tus cargas de trabajo de Spark

¿Te interesa acelerar tus trabajos de Spark con GPU? Regístrate en un taller gratuito para analizar las cargas de trabajo hoy mismo.

Innovaciones de Spark 3

Dada la naturaleza "vergonzosamente paralela" de muchas tareas de procesamiento de datos, es completamente natural que la arquitectura de una GPU se aproveche para consultas de procesamiento de datos de Spark, de modo semejante a cómo una GPU acelera las cargas de trabajo de DL en la IA. La aceleración por GPU es transparente para el desarrollador y no requiere cambios de código para obtener estas ventajas. Tres avances clave en Spark 3 han contribuido a proporcionar una aceleración por GPU transparente:

Nuevo acelerador de RAPIDS para Spark 3

NVIDIA CUDA® es una arquitectura informática paralela revolucionaria que admite la aceleración de operaciones computacionales en la arquitectura de GPU de NVIDIA. RAPIDS, incubado en NVIDIA, es un conjunto de bibliotecas de código abierto añadido como una capa a CUDA, lo que permite la aceleración por GPU de procesos de ciencia de datos.

NVIDIA ha creado un acelerador de RAPIDS para Spark 3 que intercepta y acelera las canalizaciones de ETL mediante la mejora drástica del rendimiento de las operaciones de Spark SQL y DataFrame.

Modificaciones de los componentes de Spark

Spark 3 proporciona soporte de procesamiento en columnas en el optimizador de consultas de Catalyst, que es a lo que el acelerador de RAPIDS se conecta para acelerar los operadores de SQL y DataFrame. Cuando se ejecuta el plan de consulta, esos operadores se pueden ejecutar en las GPU que se encuentran en el clúster de Spark.

NVIDIA también ha creado una nueva implementación aleatoria de Spark que optimiza la transferencia de datos entre los procesos de Spark. Esta implementación aleatoria se basa en bibliotecas de comunicación aceleradas por GPU, incluidas UCX, RDMA y NCCL.

Programación compatible con GPU en Spark

Spark 3 reconoce las GPU como un recurso de primera clase, junto con la CPU y la memoria del sistema. Esto permite a Spark 3 colocar cargas de trabajo aceleradas por GPU directamente en servidores que contengan los recursos de GPU necesarios para acelerar y completar un trabajo.

Los ingenieros de NVIDIA han contribuido a esta importante mejora de Spark, lo que permite el lanzamiento de aplicaciones de Spark en recursos de GPU de clústeres independientes de Spark, YARN y Kubernetes.

deep-learning-apache-spark-3-innovations-refactored

Análisis e IA acelerados en Spark

Spark 3 marca un hito clave para el análisis y la IA, ya que se aceleran las operaciones de ETL, mientras que las aplicaciones de ML y DL aprovechan la misma infraestructura de GPU. A continuación se muestra la pila completa de la canalización de ciencia de datos acelerada:

Análisis e IA acelerados en Spark

Primeros pasos con Spark acelerado por GPU

Descarga el acelerador de RAPIDS para Spark 3 y acelera tus canalizaciones de ciencia de datos de Apache Spark™ por GPU. Los clientes también pueden ponerse en contacto con el equipo de Nvidia Spark en GitHub.

IRS

La integración de Cloudera y NVIDIA nos permitirá utilizar información basada en datos para impulsar casos de uso esenciales... actualmente implementamos esta integración, y ya estamos viendo mejoras de velocidad de más de 10 veces a la mitad del coste para nuestros flujos de trabajo de ingeniería de datos y ciencia de datos.

– Joe Ansaldi, división de estadística y análisis aplicados en investigación del IRS (RAAS)/Jefe de la rama técnica

Adobe

Observamos un rendimiento significativamente más rápido con Spark 3 acelerado por NVIDIA, en comparación con la ejecución de Spark en las CPU. Estas mejoras de rendimiento de GPU revolucionarias abren posibilidades completamente nuevas para mejorar las funciones basadas en IA en nuestro conjunto completo de aplicaciones de Adobe Experience Cloud.

- William Yan, director sénior de aprendizaje automático, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con las optimizaciones de RAPIDS para Apache Spark™ 3 y Databricks, lo que beneficia a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a canalizaciones de datos más rápidas, formación de modelos y puntuación, que se traducen directamente en más avances e información para nuestra comunidad de ingenieros de datos y científicos de datos.

— Matei Zaharia, creador original de Apache Spark™ y técnico jefe de Databricks

IRS

La integración de Cloudera y NVIDIA nos permitirá utilizar información basada en datos para impulsar casos de uso esenciales... actualmente implementamos esta integración, y ya estamos viendo mejoras de velocidad de más de 10 veces a la mitad del coste para nuestros flujos de trabajo de ingeniería de datos y ciencia de datos.

- Joe Ansaldi, división de estadística y análisis aplicados en investigación del IRS (RAAS)/Jefe de la rama técnica

Adobe

Observamos un rendimiento significativamente más rápido con Spark 3 acelerado por NVIDIA, en comparación con la ejecución de Spark en las CPU. Estas mejoras de rendimiento de GPU revolucionarias abren posibilidades completamente nuevas para mejorar las funciones basadas en IA en nuestro conjunto completo de aplicaciones de Adobe Experience Cloud.

- William Yan, director sénior de aprendizaje automático, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con las optimizaciones de RAPIDS para Apache Spark™ 3 y Databricks, lo que beneficia a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a canalizaciones de datos más rápidas, formación de modelos y puntuación, que se traducen directamente en más avances e información para nuestra comunidad de ingenieros de datos y científicos de datos.

— Matei Zaharia, creador original de Apache Spark™ y técnico jefe de Databricks

IRS

La integración de Cloudera y NVIDIA nos permitirá utilizar información basada en datos para impulsar casos de uso esenciales... actualmente implementamos esta integración, y ya estamos viendo mejoras de velocidad de más de 10 veces a la mitad del coste para nuestros flujos de trabajo de ingeniería de datos y ciencia de datos.

- Joe Ansaldi, división de estadística y análisis aplicados en investigación del IRS (RAAS)/Jefe de la rama técnica

Adobe

Observamos un rendimiento significativamente más rápido con Spark 3 acelerado por NVIDIA, en comparación con la ejecución de Spark en las CPU. Estas mejoras de rendimiento de GPU revolucionarias abren posibilidades completamente nuevas para mejorar las funciones basadas en IA en nuestro conjunto completo de aplicaciones de Adobe Experience Cloud.

- William Yan, director sénior de aprendizaje automático, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con las optimizaciones de RAPIDS para Apache Spark™ 3 y Databricks, lo que beneficia a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a canalizaciones de datos más rápidas, formación de modelos y puntuación, que se traducen directamente en más avances e información para nuestra comunidad de ingenieros de datos y científicos de datos.

— Matei Zaharia, creador original de Apache Spark™ y técnico jefe de Databricks

Descargar nuestro libro electrónico

¿Quieres obtener todo el valor de los datos masivos con el poder de la IA? Descarga nuestro nuevo libro electrónico, "Accelerating Apache Spark™ 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI" (Aceleración de Apache Spark™ 3.x: aprovechar las GPU de NVIDIA para impulsar la nueva era de análisis e IA), para obtener más información sobre la próxima evolución de Apache Spark™.