处理在 Celery 中执行的结果很大的任务的最佳方法是什么?我正在考虑诸如表转储之类的事情,我可能会在其中返回数百兆字节的数据。
我认为将消息塞入结果数据库的幼稚方法在这里不会为我服务,更不用说如果我将 AMQP 用于我的结果后端。但是,我有一些延迟是一个问题;根据导出的特定实例,有时我必须阻塞直到它返回并直接从任务客户端发出导出数据(导出内容的 HTTP 请求进来,它不存在,但必须在响应该请求...无论需要多长时间)
那么,为此编写任务的最佳方式是什么?
处理在 Celery 中执行的结果很大的任务的最佳方法是什么?我正在考虑诸如表转储之类的事情,我可能会在其中返回数百兆字节的数据。
我认为将消息塞入结果数据库的幼稚方法在这里不会为我服务,更不用说如果我将 AMQP 用于我的结果后端。但是,我有一些延迟是一个问题;根据导出的特定实例,有时我必须阻塞直到它返回并直接从任务客户端发出导出数据(导出内容的 HTTP 请求进来,它不存在,但必须在响应该请求...无论需要多长时间)
那么,为此编写任务的最佳方式是什么?
一种选择是在所有工作机器上运行静态 HTTP 服务器。然后,您的任务可以将大结果转储到静态根目录中的唯一文件,并返回对该文件的 URL 引用。然后,接收者可以在闲暇时获取结果。
例如。有点像这样:
@task
def dump_db(db):
# Some code to dump the DB to /srv/http/static/db.sql
return 'http://%s/%s.sql' % (socket.gethostname(), db)
您当然需要一些获取旧文件的方法,以及保证唯一性,可能还有其他问题,但您明白了一般的想法。
我通过构建我的应用程序将数兆字节的结果写入文件来处理这个问题,我将它们 memmap 到内存中,以便它们在使用该数据的所有进程之间共享......这完全解决了如何将结果传递给另一个的问题机器,但如果结果那么大,听起来这些任务是服务器进程之间的内部任务协调。