在训练深度学习模型时,我发现如果我将训练和验证(测试)批量大小设置为相同,例如 32、64、...、512,GPU 并没有得到充分利用。
然后我检查了 NVIDIA Titan X 规格:
- NVIDIA CUDA® 内核:3584
- 内存:12GB GDDR5X
为了减少 CNN 模型的测试时间,我想尽可能多地增加一个批次中的样本数量。我试过了:
- 将每批次的样本数设置为 3584,cuda out of memory 错误。
- 将每批次的样本数设置为 2048,cuda out of memory 错误。
- 将每批次的样本数设置为 1024,有效。但我不确定 GPU 是否被充分利用。
问题:
如何轻松选择每批次的样本数量以充分利用 GPU 进行深度模型前向运算?