tensorflow - Tensorflow第一个epoch极慢（可能与pool_allocator有关）

Question

我正在训练一个用 TF 构建的模型。在第一个时期，TF 比下一个时期慢 *100 倍，我看到如下消息：

I tensorflow/core/common_runtime/gpu/pool_allocator.cc:259] Raising pool_size_limit_ from 958 to 1053

正如这里所建议的，我尝试通过设置来使用 tcmalloc LD_PRELOAD="/usr/lib/libtcmalloc.so"，但它没有帮助。

关于如何使第一个时代运行得更快的任何想法？

score 1 · Accepted Answer

看来是硬件问题。对于第一个 epoch TF（与其他 DL 库相同，如此处讨论的 PyTorch ）缓存有关数据的信息，如@ppwwyyxx讨论的此处

如果每个数据的大小不同，TF 可以花费大量时间为每个数据运行 cudnn 基准测试并将它们存储在缓存中

1 回答 1