NVIDIA Triton 推理服务器

在任何平台上的任何应用部署和运行 AI 并规模化。

适用于各种 AI 工作负载的推理

借助 NVIDIA Triton™，在任何处理器（GPU、CPU 或其他）上，对使用基于任何框架的，经过训练的机器学习模型或深度学习模型，进行推理部署。Triton 是 NVIDIA AI 平台的一部分，可通过 NVIDIA AI Enterprise 获取。这款开源软件可针对各种工作负载，实现标准化的 AI 模型部署和执行。

观看视频

探索 Triton 的优势

支持所有训练和推理框架

使用 Triton，部署基于任何主流框架的 AI 模型，包括 TensorFlow，PyTorch，Python，ONNX，NVIDIA® TensorRT ™、RAPIDS™ cuML，XGBoost，scikit-learn RandomForest，OpenVINO，C++ 自定义框架等。

可在任何平台上实现高性能推理

借助动态批处理、并发执行、最佳模型配置，音视频串流输入支持，最大限度地提升吞吐量和资源利用率。Triton 支持所有 NVIDIA GPU，x86 和 Arm® 架构 CPU 以及 AWS Inferentia。

专为 DevOps 和 MLOps 设计的开源软件

可将 Triton 集成到 DevOps 和 MLOps 解决方案中，例如集成到 Kubernetes 实现规模化，或集成到 Prometheus 进行监测。Triton 也可以通过所有主流云平台、本地 AI 平台和 MLOps 平台获取。

企业级安全性、可管理性和 API 稳定性

NVIDIA AI Enterprise（包括 NVIDIA Triton 和 Triton Management Service），是一个安全的、生产就绪型的 AI 软件平台，提供支持、安全性和 API 稳定性，帮助企业加速开发 AI，实现收益。

Triton 入门

购买 NVIDIA AI Enterprise 获取 Triton 来实现生产环境的 AI 部署

购买 NVIDIA AI Enterprise 获取 NVIDIA Triton 和 Triton Management Service，以实现生产环境的推理。

申请 NVIDIA AI Enterprise 90 天评估许可证

申请在 NVIDIA LaunchPad 上试用 Triton

联系我们，了解关于购买 Triton 的更多信息

下载容器和代码用于项目开发

您可以在 NVIDIA NGC™ 上下载 Triton 容器，也能在 GitHub 上获取其开源代码。

在 NGC 上下载

获取 GitHub 上的 Triton 开源代码

探索更多开发资源

Triton Management Service

可以高效利用 GPU 或 CPU 资源进行模型编排，从而自动部署 Kubernetes 上多个 Triton 推理服务实例。

了解详情

功能和工具

大型语言模型推理

TensorRT-LLM 是一个开源库，用于定义、优化和执行大型语言模型 (LLM) 在生产环境的推理。它在开源 Python API 中保留了 FasterTransformer 的核心功能，并与 TensorRT 的深度学习编译器配合使用，以快速支持新模型和定制模型。

了解有关 TensorRT-LLM 的更多信息

模型集成

许多现代 AI 工作负载都需要执行多个模型，而且每个查询通常都需要执行预处理和后处理步骤。Triton 支持模型集成和推理管道，能够在 CPU 或 GPU 上执行模型集成的不同环节，并且可以集成多个框架的模型。

详细了解模型集成

基于树的模型

Triton 的 Forest Inference Library（FIL）后端能够在 CPU 和 GPU 上，针对基于树的模型实现高性能推理，同时兼具可解释性（SHAP 值）。该后端支持 XGBoost，LightGBM，scikit-learn RandomForest，RAPIDS cuML RandomForest 框架的模型，以及其他 Treelite 格式的模型。

详细了解基于树的模型

NVIDIA PyTriton

PyTriton 提供了一个简单的接口，以便 Python 开发者使用 Triton 为模型、简单的处理功能乃至整个推理管道提供服务。Python 这种对 Triton 的原生支持，有助于实现机器学习模型的快速原型和测试，同时兼具性能和效率。只需一行代码即可启用 Triton，获取动态批处理、并发模型执行、以及 GPU 和 CPU 均可支持等收益。这样一来，开发者便无需设置模型库，也无需转换模型格式，现有推理管道的代码无需修改，直接使用。

详细了解 PyTriton

NVIDIA Triton Model Analyzer

NVIDIA Triton Model Analyzer 是一种工具，能够自动评估 Triton 推理服务器中的模型部署配置，例如目标处理器上的批大小、精度和并发执行实例。此工具有助于选择最优模型配置方案，以便满足应用的服务质量（QoS）要求，例如时延、吞吐量和存储要求，并缩短查找最优配置的时长。此工具还支持模型集成和多模型分析。

详细了解 Triton Model Analyzer