video - 在没有 hwdownload 的情况下将 ffpmeg OpenCL 过滤器输出传递给 NVenc？

Question

我正在尝试使用 ffmpeg 对 UHD HDR 视频流进行色调映射（和调整大小）。以下命令：

ffmpeg -vsync 0 -hwaccel cuda -init_hw_device opencl=ocl -filter_hw_device ocl 
    -threads 1 -extra_hw_frames 3 -c:v hevc_cuvid -resize 1920x1080 -i "INPUT.hevc" 
    -vf "hwupload,
         tonemap_opencl=tonemap=mobius:param=0.01:desat=0:r=tv:p=bt709:t=bt709:m=bt709:format=nv12,
         hwdownload,format=nv12,hwupload_cuda" 
    -c:v hevc_nvenc -b:v 8M "OUTPUT.hevc"

似乎工作（在 RTX 3080 上大约 200 FPS）。但是，我注意到它仍然使用一个 CPU 内核，而 GPU 使用率仅报告为 60-70%。当我只调整大小而不使用任何过滤器时，我得到大约 400FPS 和 100% GPU 使用率。

我怀疑最后的hwdownload,format=nv12,hwupload_cuda语句有问题，因为这增加了主内存的绕道。我尝试只使用hwupload_cuda而不使用hwdownload（如此处建议：https ://stackoverflow.com/a/55747785/929037在此答案末尾附近的过滤器示例中），但随后出现以下错误：

Impossible to convert between the formats supported by the filter 'Parsed_tonemap_opencl_1' and the filter 'auto_scaler_0'
Error reinitializing filters!
Failed to inject frame into filter network: Function not implemented
Error while processing the decoded data for stream #0:0

尝试使用hwmap导致

Assertion dst->format == AV_PIX_FMT_OPENCL failed at C:/code/ffmpeg/src/libavutil/hwcontext_opencl.c:2814

是否有可能避免这种额外的hwdownload？

score 3 · Accepted Answer

至少现在没有。

hwmap在 Nvidia 为它们发布互操作方法之前，ffmpeg 中不提供 Cuda 和 OpenCL 设备之间的零拷贝纹理共享（也称为过滤器）。

https://docs.nvidia.com/cuda/cuda-runtime-api/group__CUDART__INTEROP.html

Intel 和 AMD 为 D3D11/VAAPI<->OpenCL 互操作提供了一些 OpenCL 扩展，并且可以将一个共享图像（例如 NV12）拆分为不同的平面（例如平面 Y 和 UV）。例如来自英特尔和AMD。cl_intel_va_api_media_sharing cl_intel_d3d11_nv12_media_sharingcl_amd_planar_yuv

至于 Nvidia，他们确实有cl_nv_d3d11_sharingD3D11<->OpenCL 互操作，但我认为它在 Cuda 方面不会很好。

另一种解决方案是将色调映射算法移植为 Cuda 过滤器，但这需要一些时间。一旦完成，可以预期巨大的速度提升。您可以轻松使用它喜欢scale_cuda或overlay_cuda过滤等。

我已经看到英特尔在其最新的 iGPU 中已经支持tonemap_vaapi通过硬件功能进行过滤。不确定 Nvidia NVENC 在他们的 ASIC 中是否有类似的。

video - 在没有 hwdownload 的情况下将 ffpmeg OpenCL 过滤器输出传递给 NVenc？

1 回答 1

Related

Reference