对于我一直在运行的实验,Caffe 一直在崩溃。我的实验涉及使用 AlexNet 模型在相同数据的不同子集上训练网络。对于每个试验,我为该特定数据子集生成一个 LMDB,然后修改我的网络 .prototxt 以匹配参数。对于 40 多次试验,我没有任何问题。然而,一项特定的试验在 227 次训练迭代后始终崩溃。给出的错误只是“总线错误(核心转储)”。无论我是在 GPU 还是 CPU 上进行训练,都会发生这种情况。搜索没有产生任何其他有此错误的人的结果。显然这是某种内存寻址错误。我正在使用具有 64GB RAM 和 12GB VRAM 的 Nvidia DIGITS 盒子。系统监视器显示我正在使用系统的全部内存。如果可能有帮助,我可以提供我的 prototxt。但是,数据集太大,无法上传(>20GB)。
I1128 12:50:01.558748 20000 solver.cpp:228] 迭代 227,损失 = 5.8273
I1128 12:50:01.558786 20000 solver.cpp:244] 训练净输出 #0:损失 = 5.8273(* 1 = 5.8273 损失)
I1128 12 :50:01.558796 20000 sgd_solver.cpp:106] 迭代 227,lr = 0.001 总线错误(核心转储)
根据这个问题,我正在使用的现代英特尔机器上不存在总线错误。什么可能导致这个问题?