tensorflow - 使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG-16 模型需要多长时间？

Question

只是好奇，使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG16 模型需要多长时间？如果有人可以向我解释他们为得到答案所做的计算，那就太好了！

score 5 · Accepted Answer

很难准确估计训练模型 e2e 需要多长时间。但是假设您只是在寻找一个非常粗略的估计，我们可以首先注意到我们拥有的这个 ResNet50 实现（代码）在 v2- 上大约 7.3 小时内运行到收敛（在 90 个 epoch 上训练的 76%+ top1 准确度） 8 TPU 设备。鉴于 VGG16 在步长时间上足够接近（https://github.com/jcjohnson/cnn-benchmarks#cnn-benchmarks），我希望它的收敛也与此成正比。但是，免责声明这是一个非常粗略的估计，实际性能还取决于实现的优化程度。

score 3 · Accepted Answer

这是官方的TPU 示例。使用 2990 张训练VGG-16图像在优化的 tfrecord 数据集上进行训练， IMAGE_SIZE = [331, 331], batch_size=128, 12 epochs耗时2m15sec。我认为用1,281,167 ImageNet images意志训练需要approximately 15 hours。

tensorflow - 使用 GOOGLE COLAB TPU 在 IMAGENET 上训练 VGG-16 模型需要多长时间？

2 回答 2

Related

Reference