2

我编写了一个级联 1.2 程序,它对传感器网络的数据进行以下处理:

  1. 读取具有 3 列的 CSV 文件:毫秒时间戳、事件类型(传感器数据、电池电量、传感器电源状态)、事件正文
  2. 将毫秒时间戳四舍五入到最接近的秒数,并在此值上进行 GroupBy
  3. GroupBy 事件类型
  4. 使用以下模板将输出写入 templatetap:“{rounded timestamp}/{event type}/”

如果日志数据量很小(~300MB),我的程序运行良好,但如果我使用 EMR 集群上传感器网络产生的实际日志数据量(~200GB/天)运行它,reducer 会继续失败带有以下消息:“任务尝​​试_201301160001_0003_r_00000X_0 未能报告状态 602 秒。杀戮!

如果我在模板点击中将模板设为静态(如“输出”而不是“{rounded timestamp}/{event type}/”),则作业将在 3 小时内完成而不会出现问题

因此,问题似乎出在模板点击中!

也许是无法处理这么多动态路径?(但我的理解是,它使用默认参数随时保持约 300 个打开/活动?)

除了路径模板本身,我没有将任何参数传递给模板抽头 - 所以所有其他参数都是默认的。

我该怎么做才能使工作与“{rounded timestamp}/{event type}/”模板一起工作?

4

0 回答 0