我有一个运行 Ubuntu 12.04 服务器的无头工作站,最近安装了新的 Tesla C2070 卡,但是从 CUDA SDK 运行示例时,我收到以下错误:
NVIDIA_GPU_Computing_SDK/C/bin/linux/release% ./reduction
[reduction] starting...
Using Device 0: Tesla C2070
Reducing array of type int
16777216 elements
256 threads (max)
64 blocks
reduction.cpp(473) : cudaSafeCallNoSync() Runtime API error 39 : uncorrectable ECC error encountered.
实际上,除了“deviceQuery”之外的所有其他示例都会发生此错误。
我正在使用内核 3.2.0、nvidia 驱动程序 295.41 和 Cuda 4.2.9。
经过大量搜索后,找到了禁用 ecc 支持的建议:
nvidia-smi -g 0 --ecc-config=0
这有效。但问题是禁用 ecc 支持的 GPU 计算的可靠性如何?
任何意见、建议或解决方案将不胜感激。
-康斯坦丁