0

消费级 Nvidia GPU 预计每周会出现大约 1-10 个软内存错误。

如果您以某种方式设法在没有 ECC 的系统上检测到错误(例如,如果结果异常),哪些步骤是必要且足够的才能从中恢复?

只需将所有数据重新加载到 GPU(cuda.memcpy_htod在 PyCuda 中)就足够了,还是需要重新启动系统?那么“内核”而不是数据呢?

4

2 回答 2

2

软内存错误(意味着由于某种噪音导致的错误结果)不需要重新启动。只需倒退到某个已知的良好位置,将数据重新加载到 GPU 并继续。

于 2013-09-17T15:43:25.830 回答
1

当然,这取决于损坏的内存中的内容。我不小心覆盖了需要重新启动才能修复的 GPU 上的内存,所以如果内存也随机损坏,似乎也可能发生这种情况。我认为 GPU 驱动程序部分位于 GPU 内存中。

对于关键计算,可以通过两次运行相同的计算(包括内存副本等)并比较结果来防止软内存错误。

由于带有 ECC 的计算卡通常比显卡贵一倍以上,因此购买两张显卡并在两者上运行相同的计算并比较所有结果可能会更便宜。这具有额外的好处,可以使非关键计算的计算速度加倍。

于 2013-09-17T16:55:50.973 回答