opencl - AMD OpenCL C 编译器记录了不应该死和删除的死循环和删除循环

Question

我在我的 OpenCl 内核中执行了以下循环：

__kernel void kernelA(/* many parameters */)
{
    /*  Prefetching code and other stuff
     *  ...
     *  ...
     */

    float2 valueA = 0.0f;

    #pragma unroll                              //<----- line X
    for(unsigned int i = 0; i < MAX_A; i++)     // MAX_A > 0
    {
        #pragma unroll
        for(unsigned int j = 0; j < MAX_B; j++) // MAX_B > 0
            valueA += arrayA[(i * MAX_A) + j];
    }

    /*
     *  Code that uses the result saved to valueA
     */
}

可以清楚地看到，循环应汇总 arrayA 中包含的值。现在我想尝试#pragma unroll看看循环执行和展开执行之间是否存在任何性能差异。

但是当我编译内核时，编译器指出LOOP UNROLL: pragma unroll (line X) ignored because this loop is dead and deleted.我不理解该信息，因为循环中的代码肯定会执行。MAX_A 和 MAX_B 肯定大于零，并且保存到 valueA 的总和也在循环后使用。

我在代码的其他地方有相同的结构，这个位置也用上面的注释标记。

我使用的编译器是APP SDK提供的AMD OpenCL C编译器。

score 1 · Accepted Answer

@DarkZeroes 的评论是这个问题的解决方案。没有指令将结果放入内核的输出数组，因此上面的代码和所有依赖于它的东西都被编译器优化掉了。

opencl - AMD OpenCL C 编译器记录了不应该死和删除的死循环和删除循环

1 回答 1

Related

Reference