我正在开发机器学习分析程序,它必须在 linux 中处理 27GB 的文本文件。虽然我的生产系统不会经常重启,但我需要在我的家用计算机或开发环境中进行测试。
现在我经常停电,所以我几乎无法连续运行 3 周。
我的程序读取文件,应用一些解析,将过滤后的数据保存在字典中的新文件中,然后我将算法应用于这些文件,然后将结果保存在 mysqlDB 中。
我无法找到如何保存算法状态。
我关于算法状态的所有内容都保存在一个类中,您可以序列化该类并将其保存到磁盘:http ://docs.python.org/2/library/pickle.html
由于整个算法状态可以保存在一个类中,您可能想要使用pickle
(如上所述),但pickle
它有自己的重载和风险。
为了更好的方法来做同样的事情,你可能想看看这篇文章,它解释了为什么你应该使用这个camel
库而不是pickle
.