0

我正在处理位于 Amazon S3 服务器上的约 400 MB 嵌套 JSON 文件,使用需要近 100 次迭代的 Pig 脚本执行一些分析(为此使用 Python)。

按照目前的情况,每次迭代都会将数据加载到 EC2 中,并且每次迭代都需要一个小时来执行。

我正在使用一个16 core和十个4 core实例。

  1. 有没有办法让我不在每次迭代中加载数据?
  2. 处理速度慢的原因可能是什么?
  3. 优化处理时间的集群配置应该是什么?
4

0 回答 0