我正在 MNIST 上训练自动编码器,并注意到在 128 之后增加批量大小,开始在固定数据集大小上花费更多计算时间。
我正在使用 tensorflow-gpu 并拥有 GeForce GTX 1070。
我尝试在 5000 个样本(784 暗淡)的固定训练集上运行几个测试,并运行了 10 个 epoch。批次是batch-size
来自 5000 个训练样本的连续块,因此有效的迭代次数取决于批次大小。
我跟踪了这些数据的性能(丢失)、执行时间和 python 进程的 GPU 内存使用情况(来自 nvidia-smi 输出):
5000 datapoints 10 epochs
batch size
512: loss: 53.7472; execution took 00:00:13,787; 4281MiB
256: loss: 48.1941; execution took 00:00:04,973; 695MiB
128: loss: 42.7486; execution took 00:00:03,350; 439MiB
64: loss: 40.0781; execution took 00:00:04,191; 439MiB
32: loss: 37.7348; execution took 00:00:06,487; 441MiB
16: loss: 36.6291; execution took 00:00:12,102; 441MiB
8: loss: nan; execution took 00:00:23,115; 441MiB
当我尝试大于 512 的 minibatch 大小时,我得到 Out Of Memory 错误。
我想较小的批次需要更长的时间来执行是有道理的,因为同一日期会有更多的更新。但是,我不确定为什么当 minibatch 大于 128 个样本时计算时间会增加,而不是进一步减少。
一个假设是它与 GPU 已满且无法正确并行化有关,但我在网上找不到任何此类评论。