全部,
我按照本指南使用 deeplab v3+ 开始训练过程。但是,在步骤 1480 之后,我得到了错误:
Error reported to Coordinator: Nan in summary histogram for: image_pooling/BatchNorm/moving_variance_2
详细的火车日志在这里
有人可以建议如何解决这个问题吗?谢谢!
根据日志,您似乎正在使用 batch_size = 1、fine_tune_batch_norm = True(默认值)进行训练。由于您在训练期间微调了批规范,因此最好将批大小设置得尽可能大(请参阅train.py 中的注释和FAQ中的 Q5 )。如果只有有限的 GPU 内存可用,您可以从提供的预训练检查点进行微调,设置较小的学习率和fine_tune_batch_norm = False(有关详细信息,请参阅model_zoo.md)。注意确保标志 tf_initial_checkpoint 具有到所需预训练检查点的正确路径。