在任何平台上的任何应用部署和运行 AI 并规模化。
借助 NVIDIA Triton™,在任何处理器(GPU、CPU 或其他)上,对使用基于任何框架的,经过训练的机器学习模型或深度学习模型,进行推理部署。Triton 是 NVIDIA AI 平台的一部分,可通过 NVIDIA AI Enterprise 获取。这款开源软件可针对各种工作负载,实现标准化的 AI 模型部署和执行。
使用 Triton,部署基于任何主流框架的 AI 模型,包括 TensorFlow,PyTorch,Python,ONNX,NVIDIA® TensorRT™、RAPIDS™ cuML,XGBoost,scikit-learn RandomForest,OpenVINO,C++ 自定义框架等。
借助动态批处理、并发执行、最佳模型配置,音视频串流输入支持,最大限度地提升吞吐量和资源利用率。Triton 支持所有 NVIDIA GPU,x86 和 Arm® 架构 CPU 以及 AWS Inferentia。
可将 Triton 集成到 DevOps 和 MLOps 解决方案中,例如集成到 Kubernetes 实现规模化,或集成到 Prometheus 进行监测。Triton 也可以通过所有主流云平台、本地 AI 平台和 MLOps 平台获取。
NVIDIA AI Enterprise(包括 NVIDIA Triton 和 Triton Management Service),是一个安全的、生产就绪型的 AI 软件平台,提供支持、安全性和 API 稳定性,帮助企业加速开发 AI,实现收益。
购买 NVIDIA AI Enterprise 获取 NVIDIA Triton 和 Triton Management Service,以实现生产环境的推理。
可以高效利用 GPU 或 CPU 资源进行模型编排,从而自动部署 Kubernetes 上多个 Triton 推理服务实例。
PyTriton 提供了一个简单的接口,以便 Python 开发者使用 Triton 为模型、简单的处理功能乃至整个推理管道提供服务。Python 这种对 Triton 的原生支持,有助于实现机器学习模型的快速原型和测试,同时兼具性能和效率。只需一行代码即可启用 Triton,获取动态批处理、并发模型执行、以及 GPU 和 CPU 均可支持等收益。这样一来,开发者便无需设置模型库,也无需转换模型格式,现有推理管道的代码无需修改,直接使用。
NVIDIA Triton Model Analyzer 是一种工具,能够自动评估 Triton 推理服务器中的模型部署配置,例如目标处理器上的批大小、精度和并发执行实例。此工具有助于选择最优模型配置方案,以便满足应用的服务质量(QoS)要求,例如时延、吞吐量和存储要求,并缩短查找最优配置的时长。此工具还支持模型集成和多模型分析。
及时了解 NVIDIA 最新发布的 AI 推理资讯。