我正在处理位于 Amazon S3 服务器上的约 400 MB 嵌套 JSON 文件,使用需要近 100 次迭代的 Pig 脚本执行一些分析(为此使用 Python)。
按照目前的情况,每次迭代都会将数据加载到 EC2 中,并且每次迭代都需要一个小时来执行。
我正在使用一个16 core
和十个4 core
实例。
- 有没有办法让我不在每次迭代中加载数据?
- 处理速度慢的原因可能是什么?
- 优化处理时间的集群配置应该是什么?
我正在处理位于 Amazon S3 服务器上的约 400 MB 嵌套 JSON 文件,使用需要近 100 次迭代的 Pig 脚本执行一些分析(为此使用 Python)。
按照目前的情况,每次迭代都会将数据加载到 EC2 中,并且每次迭代都需要一个小时来执行。
我正在使用一个16 core
和十个4 core
实例。