我在 S3 中存储了需要分析的大型数据文件。每批由约 50 个文件组成,每个文件都可以独立分析。
我想将 S3 数据的并行下载设置到 EC2 实例中,并设置触发器以启动每个下载文件的分析过程。
是否有任何库可以处理异步下载,在完整模型上触发?
如果没有,我正在考虑使用 pyprocessing 设置多个下载进程,每个下载进程都将下载并分析文件的单个片段。这听起来合理还是有更好的选择?
我在 S3 中存储了需要分析的大型数据文件。每批由约 50 个文件组成,每个文件都可以独立分析。
我想将 S3 数据的并行下载设置到 EC2 实例中,并设置触发器以启动每个下载文件的分析过程。
是否有任何库可以处理异步下载,在完整模型上触发?
如果没有,我正在考虑使用 pyprocessing 设置多个下载进程,每个下载进程都将下载并分析文件的单个片段。这听起来合理还是有更好的选择?
回答我自己的问题后,我最终对 Amazon S3 python 库进行了简单的修改,让您可以分块下载文件或逐行读取文件。在这里可用。
听起来您正在寻找twisted:
“Twisted 是一个事件驱动的网络引擎,用 Python 编写并获得 MIT 许可。”
http://twistedmatrix.com/trac/
我已经在很多异步项目中使用了 twisted python,这些项目既涉及通过 Internet 进行通信,也涉及到子进程。