tensorflow - 在对 Cityscapes 语义分割数据集进行 deeplab v3+ 训练时遇到错误

Question

全部，

我按照本指南使用 deeplab v3+ 开始训练过程。但是，在步骤 1480 之后，我得到了错误：

Error reported to Coordinator: Nan in summary histogram for: image_pooling/BatchNorm/moving_variance_2

详细的火车日志在这里

有人可以建议如何解决这个问题吗？谢谢！

score 7 · Accepted Answer

根据日志，您似乎正在使用 batch_size = 1、fine_tune_batch_norm = True（默认值）进行训练。由于您在训练期间微调了批规范，因此最好将批大小设置得尽可能大（请参阅train.py 中的注释和FAQ 中的 Q5 ）。如果只有有限的 GPU 内存可用，您可以从提供的预训练检查点进行微调，设置较小的学习率和fine_tune_batch_norm = False（有关详细信息，请参阅model_zoo.md）。注意确保标志 tf_initial_checkpoint 具有到所需预训练检查点的正确路径。

tensorflow - 在对 Cityscapes 语义分割数据集进行 deeplab v3+ 训练时遇到错误

1 回答 1

Related

Reference