目前我正在处理大约 19 GB 的日志数据,
并且它们是分开的,因此输入文件的数量是 145258(pig stat)。
在 Web UI 中执行应用程序和启动 mapreduce 作业之间,
准备工作浪费了大量时间(大约 3 小时?),然后 mapreduce 工作开始。
而且mapreduce作业本身(通过Pig脚本)也很慢,大约需要一个小时。
mapreduce 逻辑并没有那么复杂,就像 group by 操作一样。
我有 3 个数据节点和 1 个名称节点,1 个辅助名称节点。
如何优化配置以提高 mapreduce 性能?