2

我在 S3 中存储了需要分析的大型数据文件。每批由约 50 个文件组成,每个文件都可以独立分析。

我想将 S3 数据的并行下载设置到 EC2 实例中,并设置触发器以启动每个下载文件的分析过程。

是否有任何库可以处理异步下载,在完整模型上触发?

如果没有,我正在考虑使用 pyprocessing 设置多个下载进程,每个下载进程都将下载并分析文件的单个片段。这听起来合理还是有更好的选择?

4

3 回答 3

3

回答我自己的问题后,我最终对 Amazon S3 python 库进行了简单的修改,让您可以分块下载文件或逐行读取文件。在这里可用

于 2009-03-13T20:37:58.317 回答
0

听起来您正在寻找twisted

“Twisted 是一个事件驱动的网络引擎,用 Python 编写并获得 MIT 许可。”

http://twistedmatrix.com/trac/

我已经在很多异步项目中使用了 twisted python,这些项目既涉及通过 Internet 进行通信,也涉及到子进程。

于 2009-02-11T21:28:41.743 回答
0

我不知道已经存在的任何东西可以完全满足您的需求,但即使不是,它也应该相当容易与 Python 放在一起。对于线程方法,您可以查看这个Python 配方,它执行多线程 HTTP 下载以测试下载镜像。

编辑:我发现很少有软件包可以为您完成大部分工作并且是您正在寻找的

于 2009-02-11T21:30:34.203 回答