3

全部,

我按照本指南使用 deeplab v3+ 开始训练过程。但是,在步骤 1480 之后,我得到了错误:

Error reported to Coordinator: Nan in summary histogram for: image_pooling/BatchNorm/moving_variance_2

详细的火车日志在这里

有人可以建议如何解决这个问题吗?谢谢!

4

1 回答 1

7

根据日志,您似乎正在使用 batch_size = 1、fine_tune_batch_norm = True(默认值)进行训练。由于您在训练期间微调了批规范,因此最好将批大小设置得尽可能大(请参阅train.py 中的注释和FAQ的 Q5 )。如果只有有限的 GPU 内存可用,您可以从提供的预训练检查点进行微调,设置较小的学习率fine_tune_batch_norm = False(有关详细信息,请参阅model_zoo.md)。注意确保标志 tf_initial_checkpoint 具有到所需预训练检查点的正确路径。

于 2018-03-13T15:38:26.807 回答