python - 从 S3 加载 EC2 中的嵌套 JSON 文件并使用 Python 进行迭代？

翻译自：https://stackoverflow.com/questions/18468208 2013-08-27T14:26:03.423

181 次

我正在处理位于 Amazon S3 服务器上的约 400 MB 嵌套 JSON 文件，使用需要近 100 次迭代的 Pig 脚本执行一些分析（为此使用 Python）。

按照目前的情况，每次迭代都会将数据加载到 EC2 中，并且每次迭代都需要一个小时来执行。

我正在使用一个16 core和十个4 core实例。

0 回答 0