Servidor de inferencia NVIDIA Triton

Implementa, ejecuta y escala la IA para cualquier aplicación en cualquier plataforma.

Inferencia para todas las cargas de trabajo de IA

Ejecuta la inferencia en modelos de aprendizaje automático o deep learning entrenados desde cualquier entorno en cualquier procesador (GPU, CPU u otro) con el servidor de inferencia NVIDIA Triton™. Como parte de la plataforma de IA de NVIDIA y disponible con NVIDIA AI Enterprise, el servidor de inferencia Triton es un software de código abierto que estandariza la implementación y ejecución de modelos de IA en todas las cargas de trabajo.

Ver vídeo

Descubre las ventajas del servidor de inferencia Triton

Compatible con todos los entornos de entrenamiento e inferencia

Implementa modelos de IA en cualquier entorno principal con el servidor de inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, Scikit-learn RandomForest, OpenVINO y C++ personalizado, entre otros.

Inferencia de alto rendimiento en cualquier plataforma

Maximiza el rendimiento y el uso con el procesamiento por lotes dinámico, la ejecución simultánea, la configuración óptima y la transmisión de audio y vídeo. El servidor de inferencia Triton es compatible con todas las GPU NVIDIA, CPU x86 y Arm®, así como con AWS Inferentia.

Código abierto y diseñado para DevOps y MLOps

Integra el servidor de inferencia Triton en soluciones DevOps y MLOps, como Kubernetes para escalar y Prometheus para supervisar. También se puede utilizar en las principales plataformas de IA y MLOps, tanto en la nube como en las instalaciones.

Seguridad de nivel empresarial, administración y estabilidad de la API

NVIDIA AI Enterprise,que incluye el servidor de inferencia NVIDIA Triton™ y Triton Management Service, es una plataforma de software de IA segura y preparada para la producción. Está diseñada para acelerar el tiempo de obtención de valor con asistencia, seguridad y estabilidad de la API.

Empieza a trabajar con Triton

Compra NVIDIA AI Enterprise con Triton para la implementación de producción

Compra NVIDIA AI Enterprise, que incluye el servidor de inferencia NVIDIA Triton y el servicio de administración Triton, para la inferencia de producción.

Envía una solicitud para probar el servidor de inferencia Triton en NVIDIA LaunchPad

Contacta con nosotros para obtener más información sobre la compra de Triton

Descarga contenedores y código para el desarrollo

Los contenedores del servidor de inferencia Triton están disponibles en NVIDIA NGC™ y como código abierto en GitHub.

Descárgalo en NGC

Accede al código abierto del servidor de inferencia Triton en GitHub

Explora más recursos para el desarrollo

Triton Management Service

Automatiza la implementación de varias instancias del servidor de inferencia Triton en Kubernetes con la orquestación de modelos de bajo consumo de recursos en GPU y CPU.

Más información

Características y herramientas

Inferencia del modelo lingüístico de gran tamaño

TensorRT-LLM, disponible en acceso anticipado, es una biblioteca de código abierto que permite definir, optimizar y ejecutar modelos lingüísticos de gran tamaño para la inferencia en producción. Mantiene la funcionalidad principal de FasterTransformer, emparejada con el compilador de deep learning de TensorRT, en una API de Python de código abierto. Así, puede admitir rápidamente nuevos modelos y personalizaciones.

Solicita el acceso anticipado a TensorRT-LLM

Conjuntos de modelos

Muchas cargas de trabajo de IA modernas requieren la ejecución de varios modelos, a menudo con pasos de preprocesamiento y posprocesamiento para cada consulta. Triton es compatible con conjuntos de modelos y canalizaciones, puede ejecutar diferentes partes del conjunto en CPU o GPU y permite varios entornos dentro del conjunto.

Más información sobre los conjuntos de modelos

Modelos basados en árbol

El backend de Forest Inference Library (FIL) en Triton proporciona asistencia para la inferencia de alto rendimiento de modelos basados en árbol con explicabilidad (valores SHAP) en CPU y GPU. Es compatible con modelos de XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest y otros en formato Treelite.

Más información sobre los modelos basados en árbol

NVIDIA PyTriton

PyTriton ofrece una interfaz sencilla que permite a los desarrolladores de Python utilizar Triton para lo que sea: modelos, funciones de procesamiento sencillas o canalizaciones de inferencia completas. Este soporte nativo para Triton en Python permite crear prototipos y probar rápidamente modelos de aprendizaje automático con rendimiento y eficiencia. Una sola línea de código incorpora Triton, que proporciona ventajas como el procesamiento por lotes dinámico, la ejecución simultánea de modelos y la compatibilidad con GPU y CPU. De este modo, se elimina la necesidad de configurar repositorios y convertir formatos de modelos. El código de canalización de inferencia existente se puede utilizar sin modificarlo.

Más información sobre PyTriton

Analizador de modelos NVIDIA Triton

El analizador de modelos Triton es una herramienta que evalúa automáticamente las configuraciones de implementación de modelos en el servidor de inferencia Triton, como el tamaño del lote, la precisión y las instancias de ejecución simultánea en el procesador de destino. Además, ayuda a seleccionar la configuración óptima para satisfacer las restricciones de calidad de servicio de la aplicación, como la latencia, el rendimiento y los requisitos de memoria, y reduce el tiempo necesario para encontrar dicha configuración. Esta herramienta también admite conjuntos de modelos y análisis multimodelo.

Más información sobre el analizador de modelos Triton

Casos de éxito

Descubre cómo Amazon ha mejorado la satisfacción del cliente con NVIDIA AI al acelerar su inferencia 5 veces.

Más información

Descubre cómo American Express ha mejorado la detección de fraudes al analizar decenas de millones de transacciones diarias 50 veces más rápido.

Más información

Descubre cómo Siemens Energy ha aumentado las inspecciones al proporcionar supervisión remota basada en IA para detectar fugas, ruidos anormales y mucho más.

Más información

Descubre cómo Microsoft Teams ha utilizado el servidor de inferencia Triton para optimizar la subtitulación y la transcripción en directo en varios idiomas con una latencia muy baja.

Más información

Descubre cómo NIO ha logrado un flujo de trabajo de inferencia de baja latencia al integrar el servidor de inferencia NVIDIA Triton en su canalización de inferencia de conducción autónoma.

Más información

Integraciones del ecosistema

Triton es la mejor opción para una inferencia escalable de alto rendimiento. Está disponible en Alibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS), Azure Machine Learning y Oracle Cloud Infrastructure Data Science Platform.

Más recursos

Obtén una introducción

Comprende las características clave del servidor de inferencia Triton que te ayudan a implementar, ejecutar y escalar modelos de IA en producción con facilidad.

Leer

Escucha a los expertos

Explora las sesiones de la GTC sobre inferencia y cómo dar los primeros pasos con el servidor de inferencia Triton.

Ver el vídeo

Explora blogs técnicos

Lee blogs sobre el servidor de inferencia Triton.

Explora blogs sobre el servidor de inferencia NVIDIA Triton™

Echa un vistazo a un libro electrónico

Descubre el panorama moderno de la inferencia de IA, los casos de uso de producción de empresas y los desafíos y soluciones del mundo real.

Leer

Mantente al día de las últimas noticias sobre inferencia de IA de NVIDIA.

Inscribirse