0

我有 Titan X Pascal、Intel i5-6600、16GB Ram 并在 Ubuntu 14.04 中运行 torch7。Nvidia 驱动程序版本为 375.20、CUDA Toolkit 8.0 和 cuDNN v5.1。

我使用来自 Caffe 的相同 VGG16 网络(通过 loadcaffe 导入)进行了与本 Benchmark 中相同的测试。但是,对于前向传递,我的设置需要 80 毫秒,这显然是基准测试所需时间的两倍。

我还生成了一批具有 3 个通道和 224x224 大小的 16 张图像。相关代码为:

 local model = loadcaffe.load("/home/.../Models/VGG16/VGG_ILSVRC_16_layers_deploy.prototxt",
                          "/home/.../Models/VGG16/VGG_ILSVRC_16_layers.caffemodel",
                          "cudnn")

 for i=1, 50 do
   local input = torch.randn(16, 3, 224, 224):type("torch.CudaTensor")

   cutorch.synchronize()
   local timer = torch.Timer()

   model:forward(input)
   cutorch.synchronize()

   local deltaT = timer:time().real
   print("Forward time: " .. deltaT)
 end

输出是: Forward time: 0.96536016464233 Forward time: 0.10063600540161 Forward time: 0.096444129943848 Forward time: 0.089151859283447 Forward time: 0.082037925720215 Forward time: 0.082045078277588 Forward time: 0.079913139343262 Forward time: 0.080273866653442 Forward time: 0.080694913864136 Forward time: 0.082727193832397 Forward time: 0.082070827484131 Forward time: 0.079407930374146 Forward time: 0.080456018447876 Forward time: 0.083559989929199 Forward time: 0.082060098648071 Forward time: 0.081624984741211 Forward time: 0.080413103103638 Forward time: 0.083755016326904 Forward time: 0.083209037780762 ...

我是否需要做任何额外的事情才能达到这个速度?还是我在这里做错了什么?或者可能是因为我使用的是 Ubuntu 14.04,而不是 Ubuntu 16.04(尽管在基准测试中,在 Ubuntu 14.04 上运行的 GTX 1080 也只需要 60 毫秒)?

4

1 回答 1

0

我终于找到了解决方案。

我必须启用 cudnn.benchmark 标志:

cudnn.benchmark = true

默认情况下,它设置为 false,因此 cudnn 不会选择最快的算法。我的前进时间现在大约是 39 毫秒。

于 2016-12-29T12:18:06.523 回答