Implementa, ejecuta y escala la IA para cualquier aplicación en cualquier plataforma.
Ejecuta la inferencia en modelos de aprendizaje automático o deep learning entrenados desde cualquier entorno en cualquier procesador (GPU, CPU u otro) con el servidor de inferencia NVIDIA Triton™. Como parte de la plataforma de IA de NVIDIA y disponible con NVIDIA AI Enterprise, el servidor de inferencia Triton es un software de código abierto que estandariza la implementación y ejecución de modelos de IA en todas las cargas de trabajo.
Implementa modelos de IA en cualquier entorno principal con el servidor de inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, Scikit-learn RandomForest, OpenVINO y C++ personalizado, entre otros.
Maximiza el rendimiento y el uso con el procesamiento por lotes dinámico, la ejecución simultánea, la configuración óptima y la transmisión de audio y vídeo. El servidor de inferencia Triton es compatible con todas las GPU NVIDIA, CPU x86 y Arm®, así como con AWS Inferentia.
Integra el servidor de inferencia Triton en soluciones DevOps y MLOps, como Kubernetes para escalar y Prometheus para supervisar. También se puede utilizar en las principales plataformas de IA y MLOps, tanto en la nube como en las instalaciones.
NVIDIA AI Enterprise,que incluye el servidor de inferencia NVIDIA Triton™ y Triton Management Service, es una plataforma de software de IA segura y preparada para la producción. Está diseñada para acelerar el tiempo de obtención de valor con asistencia, seguridad y estabilidad de la API.
Compra NVIDIA AI Enterprise, que incluye el servidor de inferencia NVIDIA Triton y el servicio de administración Triton, para la inferencia de producción.
Los contenedores del servidor de inferencia Triton están disponibles en NVIDIA NGC™ y como código abierto en GitHub.
Automatiza la implementación de varias instancias del servidor de inferencia Triton en Kubernetes con la orquestación de modelos de bajo consumo de recursos en GPU y CPU.
PyTriton ofrece una interfaz sencilla que permite a los desarrolladores de Python utilizar Triton para lo que sea: modelos, funciones de procesamiento sencillas o canalizaciones de inferencia completas. Este soporte nativo para Triton en Python permite crear prototipos y probar rápidamente modelos de aprendizaje automático con rendimiento y eficiencia. Una sola línea de código incorpora Triton, que proporciona ventajas como el procesamiento por lotes dinámico, la ejecución simultánea de modelos y la compatibilidad con GPU y CPU. De este modo, se elimina la necesidad de configurar repositorios y convertir formatos de modelos. El código de canalización de inferencia existente se puede utilizar sin modificarlo.
El analizador de modelos Triton es una herramienta que evalúa automáticamente las configuraciones de implementación de modelos en el servidor de inferencia Triton, como el tamaño del lote, la precisión y las instancias de ejecución simultánea en el procesador de destino. Además, ayuda a seleccionar la configuración óptima para satisfacer las restricciones de calidad de servicio de la aplicación, como la latencia, el rendimiento y los requisitos de memoria, y reduce el tiempo necesario para encontrar dicha configuración. Esta herramienta también admite conjuntos de modelos y análisis multimodelo.
Triton es la mejor opción para una inferencia escalable de alto rendimiento. Está disponible en Alibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS), Azure Machine Learning y Oracle Cloud Infrastructure Data Science Platform.
Mantente al día de las últimas noticias sobre inferencia de IA de NVIDIA.