5

我正在运行一个 Flask 服务器,它将数据加载到 MongoDB 数据库中。由于数据量很大,而且这需要很长时间,我想通过后台作业来完成。

我使用 Redis 作为消息代理和 Python-rq 来实现作业队列。所有代码都在 Heroku 上运行。

据我了解,python-rq 使用 pickle 序列化要执行的函数,包括参数,并将其与其他值一起添加到 Redis 哈希值。

由于参数包含要保存到数据库的信息,它非常大(~50MB),当它被序列化并保存到 Redis 时,不仅需要大量时间,而且还消耗大量内存。Heroku 上的 Redis 计划仅 100MB 的费用为每分钟 30 美元。事实上,我经常遇到 OOM 错误,例如:

OOM command not allowed when used memory > 'maxmemory'.

我有两个问题:

  1. python-rq 是否非常适合这项任务,还是 Celery 的 JSON 序列化更合适?
  2. 有没有办法不序列化参数而是引用它?

非常感谢您对最佳解决方案的想法!

4

2 回答 2

7

由于您在评论中提到您的任务输入是一大堆键值对,因此我将推荐以下内容:

  • 在文件中加载您的键/值对列表。
  • 将文件上传到 Amazon S3。
  • 获取生成的文件 URL,并将其传递给您的 RQ 任务。
  • 在您的工作任务中,下载文件。
  • 逐行解析文件,将文档插入 Mongo。

使用上述方法,您将能够:

  • 快速将您的任务分解为可管理的块。
  • 将这些小型压缩文件快速上传到 S3(使用 gzip)。
  • 通过需要更少的数据通过线路传递,大大减少了您的 redis 使用量。
  • 将 S3 配置为在一定时间后自动删除您的文件(S3 对此有设置:例如,您可以让它在 1 天后自动删除)。
  • 通过一次处理一行文件来大大减少工作人员的内存消耗。

对于像您正在做的事情这样的用例,这将比通过您的排队系统发送这些项目要快得多,并且需要的开销要少得多。

希望这可以帮助!

于 2017-01-04T17:21:06.623 回答
0

事实证明,可行的解决方案是将数据保存到 Amazon S3 存储,然后传递 URI 以在后台任务中运行。

于 2017-01-04T16:56:29.913 回答