11

我的环境是

  • 视窗 7 x64
  • Matlab 2012a x64
  • 库达 SDK 4.2
  • 特斯拉 C2050 GPU

我无法弄清楚为什么我的 GPU 因“遇到无法纠正的 ECC 错误”而崩溃。仅当我使用 512 个线程或更多线程时才会出现此错误。我不能发布内核,但我会尝试描述它的作用。

通常,内核采用许多参数并生成由线程大小 M 和另一个数字 N 定义的 2 个复杂矩阵。因此返回的矩阵大小为 MxN。典型配置是 512x512,但每个数字都是独立的,可以上下变化。当数字为 256x256 时,内核工作。

每个线程(内核)根据线程 id 从二维数组中提取一个 999 大小的向量,即大小为 999xM,然后循环遍历输出矩阵的行 (0 .. N-1) 进行计算。计算了许多中间参数,仅使用 pow、sin 和 cos 其中+ - * /运营商。为了计算其中一个输出矩阵,需要执行一个额外的循环来总结之前提取的 999 个向量的贡献。该循环进行一些中间计算以确定允许贡献的值范围。然后按由计算的分数值的余弦值和正弦值确定的因子对贡献进行缩放。这是它崩溃的地方。如果我坚持一个常数值或 1.0 或任何其他值,内核将毫无问题地执行。但是,当只包含一个调用(cos 或 sine)时,内核会崩溃。

一些伪代码如下:

kernel()
{

/* Extract 999 vector from 2D array 999xM - one 999 vector for each thread. */
for (int i = 0; i < 999; i++)
{
    .....
}

/* Cycle through the 2nd dimension of the output matricies */
for (int j = 0; j < N; j++)
{
    /* Calculate some intermediate variables */

    /* Calculate the real and imaginary components of the first output matrix */
    /* real = cos(value), imaginary = sin(value) */

    /* Construct the first output matrix from some intermediate variables and the real and imaginary components */

    /* Calculate some more intermediate variables */

    /* cycle through the extracted vector (0 .. 998) */
    for (int k = 0; k < 999; k++)
    {

        /* Calculate some more intermediate variables */

        /* Determine the range of allowed values to contribute to the second output matrix. */

        /* Calculate the real and imaginary components of the second output matrix */
        /* real = cos(value), imaginary = sin(value) */
        /* This is were it crashes, unless real and imaginary are constant values (1.0) */

        /* Sum up the contributions of the extracted vector to the second output matrix */

     }
     /* Construct the Second output matrix from some intermediate variables and the real and imaginary components */

}
}

我认为这可能是由于寄存器限制,但占用计算器表明情况并非如此,我使用的寄存器少于 512 个线程的 32,768 个寄存器。任何人都可以就造成这种情况的原因提出任何建议吗?

这是ptasx信息:

ptxas info    : Compiling entry function '_Z40KerneliidddddPKdS0_S0_S0_iiiiiiiiiPdS1_S1_S1_S1_S1_S1_S1_S1_S1_' for 'sm_20' 

ptxas info    : Function properties for _Z40KerneliidddddPKdS0_S0_S0_iiiiiiiiiPdS1_S1_S1_S1_S1_S1_S1_S1_S1_ 

8056 bytes stack frame, 0 bytes spill stores, 0 bytes spill loads 

ptxas info    : Function properties for __internal_trig_reduction_slowpathd 

40 bytes stack frame, 0 bytes spill stores, 0 bytes spill loads 

ptxas info    : Used 53 registers, 232 bytes cmem[0], 144 bytes cmem[2], 28 bytes cmem[16]

tmpxft_00001d70_00000000-3_MexFunciton.cudafe1.cpp 
4

1 回答 1

18

“不可纠正的 ECC 错误”通常是指硬件故障。ECC 是纠错码,一种检测和纠正存储在 RAM 中的位中的错误的方法。一条杂散的宇宙射线可能每隔一段时间就会破坏存储在 RAM 中的一个位,但“不可纠正的 ECC 错误”表示从 RAM 存储中出来的几个位“错误”——ECC 无法恢复原始位值太多。

这可能意味着您的 GPU 设备内存中有一个坏的或边缘的 RAM 单元。

任何类型的边际电路都可能不会 100% 失效,但在大量使用的压力下更可能发生故障 - 以及相关的温度升高。

有一些诊断实用程序可以对您 PC 的所有 RAM 组进行压力测试,以确认或查明哪个芯片出现故障,但我不知道用于测试 GPU 的设备 RAM 组的模拟。

如果您可以访问另一台具有类似功能的 GPU 的机器,请尝试在该机器上运行您的应用程序以查看它的行为。如果您在第二台机器上没有收到 ECC 错误,这证实了几乎可以肯定问题出在第一台机器的硬件上。如果您在第二台机器上遇到相同的 ECC 错误,请忽略我在此处编写的所有内容并继续查找您的软件错误。除非您的代码实际上导致硬件损坏,否则两台机器出现相同硬件故障的可能性非常小。

于 2012-08-07T05:45:32.920 回答