我一直在尝试处理大量数据(几 GB),但我的个人计算机拒绝在合理的时间跨度内完成,所以我想知道我有什么选择?我使用的是 python 的csv.reader,但即使获取 200,000 行也非常缓慢。然后我将这些数据迁移到一个sqlite数据库,它检索结果的速度更快,并且不使用太多内存,但速度缓慢仍然是一个主要问题。
所以,再次......我有什么选择来处理这些数据?我想知道使用亚马逊的现货实例,这似乎对这种目的很有用,但也许还有其他解决方案可供探索。
假设现场实例是一个不错的选择,并且考虑到我以前从未使用过它们,我想问一下我对它们有什么期望?有没有人有使用它们做这种事情的经验?如果是这样,您的工作流程是什么?我想我可以找到一些博客文章,详细介绍科学计算、图像处理或类似的工作流程,但我没有找到任何东西,所以如果你能解释一下或指出一些链接,我将不胜感激。
提前致谢。