python - 大内存 Python 后台作业

Question

我正在运行一个 Flask 服务器，它将数据加载到 MongoDB 数据库中。由于数据量很大，而且这需要很长时间，我想通过后台作业来完成。

我使用 Redis 作为消息代理和 Python-rq 来实现作业队列。所有代码都在 Heroku 上运行。

据我了解，python-rq 使用 pickle 序列化要执行的函数，包括参数，并将其与其他值一起添加到 Redis 哈希值。

由于参数包含要保存到数据库的信息，它非常大（~50MB），当它被序列化并保存到 Redis 时，不仅需要大量时间，而且还消耗大量内存。Heroku 上的 Redis 计划仅 100MB 的费用为每分钟 30 美元。事实上，我经常遇到 OOM 错误，例如：

OOM command not allowed when used memory > 'maxmemory'.

我有两个问题：

非常感谢您对最佳解决方案的想法！

score 7 · Accepted Answer

由于您在评论中提到您的任务输入是一大堆键值对，因此我将推荐以下内容：

使用上述方法，您将能够：

对于像您正在做的事情这样的用例，这将比通过您的排队系统发送这些项目要快得多，并且需要的开销要少得多。

希望这可以帮助！

score 0 · Accepted Answer

事实证明，可行的解决方案是将数据保存到 Amazon S3 存储，然后传递 URI 以在后台任务中运行。

2 回答 2