“c++-amp”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1149 浏览

c++ - 减少 C++Amp 中的 GPU-CPU 数据传输

尝试使用 C++Amp 优化我的应用程序时遇到以下问题：数据传输。对我来说，将数据从 CPU 复制到 GPU 没有问题（因为我可以在应用程序的初始状态下做到这一点）。更糟糕的是，我需要快速访问由 C++Amp 内核计算的结果，因此 GPU 和 CPU 之间的瓶颈很痛苦。我读到在 Windows 8.1 下有性能提升，但是我使用的是 Windows 7，我不打算改变它。我阅读了关于暂存数组的信息，但我不知道它们如何帮助解决我的问题。我需要向主机返回一个浮点值，这似乎是最耗时的操作。

我检查了在上面的示例中最耗时的操作是copy(a_partial_result, v_partial_result.begin());. 我正在努力寻找更好的方法。

c++multithreading visual-studio gpgpu c++-amp

2014-02-19T19:08:53.117

0 投票

1 回答

604 浏览

c# - C++ AMP计算和WPF渲染显卡两用性能

情况：

在一个既需要计算又需要渲染图像（图像预处理然后显示）的应用程序中，我想同时使用 AMP 和 WPF（AMP 对图像进行一些过滤，而 WPF 仅显示缩放/旋转的图像）图像和一些简单的叠加层，都以大约 30fps 的速度运行，新图像将不断流入）。

问题：

有什么方法可以找出两者将如何相互影响？

我想知道我是否会在稍后的实际应用程序中看到在一个孤立的仅 AMP 环境中看到的希望不错的加速。

附加信息：

我将能够并且将单独测量 AMP 性能，因为它是低级别的新功能，无论如何我都将在单独的项目中设置。WPF 渲染部分已经存在于一个复杂的应用程序中，因此很难将其隔离。

我不打算只为渲染进行过滤器等，因为中间级别也需要结果（其他算法，例如边缘检测、保存等）。

c#c++wpf rendering c++-amp

2014-03-01T07:24:50.033

0 投票

1 回答

242 浏览

c++ - C++ amp on Tegra4 surface2

This is not a programming question as such, but related to, and something which I have been unable to find info about anywhere else. I hope it can be accepted.

I am attempting to port a C++ AMP application to run on a Surface 2 tablet. Since C++ AMP works on WinRT on the tablet and since it uses DirectX for GPU acceleration and since the Tegra processor does work with DirectX, I was expecting a performance boost from using C++ AMP on the tablet vs using the "cpu". I see about 80x speedup on desktop using the same code on GPU as compared to using a single CPU core and it is highly parallel.

As it turns out, an AMP solution on the tablet is only giving me the benefit of the Tegras four cores, but nothing more.

I have three C++ AMP devices which are: WARP, ref, CPU

The default is WARP.Ref is very much slower and CPU seems to crash right now.

Is the SIMD cores just not available for C++ AMP on a Tegra4 or do I have to do something special?

c++windows-runtime tablet c++-amp

2014-03-02T15:03:54.360

0 投票

2 回答

956 浏览

c++ - C++ AMP nested loop

I'm working on a project that requires massive parallel computing. However, the tricky problem is that, the project contains a nested loop, like this:

To achieve the highest gain, I need to parallelise those two levels of loops. Like this:

I tested and found that AMP doesn't support nested for loops. Anyone have any idea on this problem? Thanks

c++parallel-processing gpu gpgpu c++-amp

2014-03-06T09:06:14.677

0 投票

1 回答

226 浏览

c++-amp - 最大可写数据容器数

操作系统： Windows 8.1 64 位 - 完全更新

IDE： Visual Studio Professional 2013 - 版本 12.0.30110.00 更新 1 - 完全更新

我有一种情况，不是在编译期间而是在运行时出现以下异常。

parallel_for_each 调用的入口函数中引用的可写数据容器的数量 (17) 超过了所选加速器的限制 (8)。

发生这种情况的函数如下所示

根据这个 MSDN-post here和here，自 Windows 8 以来，可写容器的最大数量应该增加到 64 个。

我现在的问题是，是否有不同类型的可写容器，而我仍然只能使用最多 8 个某种类型的容器？

c++-amp

2014-03-13T06:25:09.503

0 投票

1 回答

771 浏览

c++ - 简单图像处理示例中的 C++AMP 异常

我正在尝试自学 C++AMP，并且想从我所在领域的一个非常简单的任务开始，那就是图像处理。我想将每像素 24 位的 RGB 图像（位图）转换为每像素 8 位的灰度图像。图像数据以unsigned char数组形式提供（从Bitmap::LockBits(...)等处获得）

我知道 C++AMP 出于某种原因无法通过or处理charorunsigned char数据，因此我尝试根据该博客使用 s 。这里解释了如何写入 8bpp 纹理，尽管 VisualStudio 2013 告诉我已弃用。arrayarray_viewtexturewriteonly_texture_view

我的代码抛出运行时异常，提示“无法调度内核”。异常的完整文本很长：

ID3D11DeviceContext::Dispatch：计算着色器单元插槽 0 中的无序访问视图 (UAV) 具有格式 (R8_UINT)。这种格式不支持像 UAV 一样从着色器中读取。如果着色器实际使用视图，则这种不匹配是无效的（例如，由于着色器代码分支，它没有被跳过）。不幸的是，不可能让所有硬件实现都支持将此格式作为 UAV 读取，尽管该格式可以作为 UAV 写入。如果着色器只需要对该资源执行读取而不是写入，请考虑使用着色器资源视图而不是 UAV。

到目前为止我使用的代码是这样的：

这个异常的原因是什么，我可以做些什么来解决这个问题？

c++image-processing visual-studio-2013 gpgpu c++-amp

2014-03-19T21:14:51.333

0 投票

1 回答

180 浏览