c++ - 监控 Caffe 中的培训/验证过程

Question

我正在训练用于对图像进行分类的 Caffe 参考模型。我的工作要求我通过在整个训练集和分别具有 100K 和 50K 图像的验证集上每 1000 次迭代后绘制模型的准确度图来监控训练过程。现在，我采取天真的方法，每 1000 次迭代后制作快照，运行读取原始 JPEG 图像并转发到网络并输出预测标签的 C++ 分类代码。但是，这在我的机器上花费了太多时间（使用 Geforce GTX 560 Ti）

有没有更快的方法可以让我在训练集和验证集上获得快照模型的准确性图？

我正在考虑使用 LMDB 格式而不是原始图像。但是，我找不到有关使用 LMDB 格式在 C++ 中进行分类的文档/代码。

score 27 · Accepted Answer

1) 您可以使用NVIDIA-DIGITS应用程序来监控您的网络。它们提供了一个 GUI，包括数据集准备、模型选择和学习曲线可视化。此外，他们使用允许多 GPU 训练的 caffe 分布。

2）或者，您可以简单地使用 caffe 中的日志解析器。

/pathtocaffe/build/tools/caffe train --solver=solver.prototxt 2>&1 | tee lenet_train.log

这允许您将火车日志保存到“lenet_train.log”中。然后通过使用：

python /pathtocaffe/tools/extra/parse_log.py lenet_train.log .

您将训练日志解析为两个 csv 文件，其中包含训练和测试损失。然后，您可以使用以下 python 脚本绘制它们

import pandas as pd
from matplotlib import *
from matplotlib.pyplot import *

train_log = pd.read_csv("./lenet_train.log.train")
test_log = pd.read_csv("./lenet_train.log.test")
_, ax1 = subplots(figsize=(15, 10))
ax2 = ax1.twinx()
ax1.plot(train_log["NumIters"], train_log["loss"], alpha=0.4)
ax1.plot(test_log["NumIters"], test_log["loss"], 'g')
ax2.plot(test_log["NumIters"], test_log["acc"], 'r')
ax1.set_xlabel('iteration')
ax1.set_ylabel('train loss')
ax2.set_ylabel('test accuracy')
savefig("./train_test_image.png") #save image as png

score 1 · Accepted Answer

每次您尝试训练某些内容时，Caffe 都会创建日志，并且它位于 tmp 文件夹（Linux 和 Windows）中。
我还在 python 中编写了一个绘图脚本，您可以轻松地使用它来可视化您的损失/准确性。
只需将带有.log扩展名的训练日志放在脚本旁边，然后双击它。您也可以使用命令提示符，但为了便于使用，在执行时它会加载它可以在当前目录中找到的所有日志 (*.log)。它还显示了前 4 个精度以及它们达到的精度。

你可以在这里找到它：https ://gist.github.com/Coderx7/03f46cb24dcf4127d6fa66d08126fa3b

score 1 · Accepted Answer

python /pathtocaffe/tools/extra/parse_log.py lenet_train.log

命令产生以下错误：

usage: parse_log.py [-h] [--verbose] [--delimiter DELIMITER]
                logfile_path output_dir
parse_log.py: error: too few arguments

解决方案：

为了成功执行“parse_log.py”命令，我们应该传递两个参数：

日志文件
输出目录路径

所以正确的命令如下：

python /pathtocaffe/tools/extra/parse_log.py lenet_train.log output_dir

c++ - 监控 Caffe 中的培训/验证过程

3 回答 3

Related

Reference