问题标签 [tritonserver]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用具有 1:N 输入/输出的 Triton 服务器“集成模型”从大图像创建补丁?
我正在尝试将一个非常大的图像输入 Triton 服务器。我需要将输入图像分成补丁,并将补丁一一输入到张量流模型中。图像具有可变大小,因此每次调用的补丁数 N 都是可变的。
我认为调用以下步骤的 Triton 集成模型可以完成这项工作:
- 用于创建补丁的 python 模型(预处理)
- 细分模型
- 最后是另一个 python 模型(后处理)将输出补丁合并到一个大的输出掩码中
但是,为此,我必须编写一个具有和关系的config. pbtxt
文件,这意味着集成调度程序需要多次调用第二步,并使用聚合输出调用第三步。1:N
N:1
这可能吗,还是我需要使用其他技术?
python - 通过 perf_analyzer 使用真实图像数据 - Triton Inference Server
我目前正在尝试将 Nvidia Triton 推理服务器的 perf_analyzer 与深度学习模型一起使用,该模型将 numpy 数组(这是一个图像)作为输入。*
我按照步骤使用文档中的真实数据,但我的输入被 perf_analyzer 拒绝:“错误:不支持的输入数据提供了 perf_analyzer”。
这是我的输入配置:
还有一个我想在 perf_analyzer 中加载的 JSON 示例:
您知道如何通过 JSON 传递我的 type_FP32 中的图像吗?
谢谢
gitlab - Triton 进入 Gitlab CI
在将 triton 服务实施到 gitlab CI 时遇到问题。正如我在 triton github https://github.com/triton-inference-server/server中注意到的那样,默认情况下它们在 Dockerfile 中没有任何暴露的端口,我真的无法以任何方式访问该服务?访问 triton 服务是否有任何解决方法?
谢谢!
tritonserver - 是否可以在 Nvidia Triton 推理服务器模型存储库中使用另一个模型和自定义 Python 模型?
我想在我在同一个存储库中拥有的另一个自定义 Python 模型中使用我的 Triton 推理服务器模型存储库中的模型。可能吗?如果是,该怎么做?
我想这可以通过Building Custom Python Backend Stub来完成,但我想知道是否有更简单的方法。
c++ - centos/rhel 系统上的 Cmake 安装到 .../lib64,而在 ubuntu 上安装到 .../lib
我正在尝试在 centos/rhel 而不是 ubuntu 上编译triton 推理服务器。我遇到的一个问题是某些包(例如 protobuf、prometheus-cpp)会出现以下错误:
我已经发现在 ubuntu 上安装了许多软件包,.../lib/cmake/.../*config.cmake
而在 centos/rhel 上安装到.../lib64/cmake../*config.cmake
.
我想知道是否有一种简单的方法可以告诉 cmake 在 centos 上安装 lib/cmake 下的所有内容。
我也尝试过“反过来”并将特定包的搜索路径设置为 lib64 (例如,我将这个和这行代码从.../lib/cmake/...
更改为.../lib64/cmake/...
)但是当来自其他存储库的第三方模块被克隆时,我面临同样的问题.
因此,理想情况下,我想要一种简单的方法来告诉 cmake 在“主要”CMakeLists.txt (有多个 CMakeLists.txt 和一些make
在构建过程的后期生成)中的所有内容都应该安装到lib
.
谢谢!
mlops - Triton 推理服务器:显式模型控制
我需要一些关于部署具有显式模型控制的 Triton 推理服务器的建议。从外观上看,这种模式让用户可以最大程度地控制哪个模型上线。但我无法解决的问题是如何加载模型,以防服务器在生产中出现故障,从而触发新实例的生成。
我能想到的唯一解决方案是让服务定期轮询服务器,不断检查我的实时模型是否真正活跃,如果没有,则加载它们。但这似乎是一个相当复杂的过程。
我想知道其他人是如何解决这个问题的。
提前致谢
nvidia - fast_rcnn_r50 预训练转换为托管在 Triton 模型服务器中的 ONNX
我通过 mmdetection 文档将 pytorch 模型转换为 onnx链接
所有安装都是正确的,我正在使用 onnxruntime==1.8.1,ONNX Runtime MMCV_WITH_OPS 的自定义运算符。
我正在使用 configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py 以获得更快的 rcnn链接并使用 R-5-FPN 预训练模型链接
我用它来将预训练模型转换为 onnx 并成功保存了一个名为 fasterrcnn.onnx 的 onnx 文件
我正在使用该 onnx 文件在 NVIDIA triton 模型服务器中托管模型。
Triton 的 onnx 模型的模型总结如下图所示
摘要概述了输出具有类别“标签”和“数据”
在向 triton 发送带有示例图像的推理请求后,我收到以下响应。 标签
数据
标签响应看起来像常规的COCO 类(80),但我很难解码dets响应。这看起来像边界框坐标 4 和置信阈值 1。制作形状 (1,100,5)。关于dets类别应该代表什么的任何想法?输出通常取决于模型本身,但我认为 onnx 转换正在将输出更改为标签和dets
deep-learning - Triton 推理服务器上的姿态估计
我正在努力在 NVIDIA Triton 推理服务器中运行姿势模型。模型(开放姿势,阿尔法姿势,HRNet ...等)正常加载,但后处理是问题
python - 带有 Python 后端流的 Triton 推理服务器
我正在使用带有 python 后端的 Triton 推理服务器,目前发送单个 grpc 请求是否有人知道我们如何将 python 后端用于流式传输,因为我没有找到任何示例或任何与流式传输文档相关的内容。