我编写了一个级联 1.2 程序,它对传感器网络的数据进行以下处理:
- 读取具有 3 列的 CSV 文件:毫秒时间戳、事件类型(传感器数据、电池电量、传感器电源状态)、事件正文
- 将毫秒时间戳四舍五入到最接近的秒数,并在此值上进行 GroupBy
- GroupBy 事件类型
- 使用以下模板将输出写入 templatetap:“{rounded timestamp}/{event type}/”
如果日志数据量很小(~300MB),我的程序运行良好,但如果我使用 EMR 集群上传感器网络产生的实际日志数据量(~200GB/天)运行它,reducer 会继续失败带有以下消息:“任务尝试_201301160001_0003_r_00000X_0 未能报告状态 602 秒。杀戮!
如果我在模板点击中将模板设为静态(如“输出”而不是“{rounded timestamp}/{event type}/”),则作业将在 3 小时内完成而不会出现问题。
因此,问题似乎出在模板点击中!
也许是无法处理这么多动态路径?(但我的理解是,它使用默认参数随时保持约 300 个打开/活动?)
除了路径模板本身,我没有将任何参数传递给模板抽头 - 所以所有其他参数都是默认的。
我该怎么做才能使工作与“{rounded timestamp}/{event type}/”模板一起工作?