我对 TEZ mapreduce 工作有奇怪的行为。
我正在尝试从 Hive 读取日志数据,按 id、日期和其他一些参数将其拆分为一些块,然后写入另一个 hive 表。
Map 阶段运行速度足够快,大约需要 20 分钟,然后 reducer 开始工作,458 个 reducer 中的 453 个在接下来的 20 分钟内处理所有数据。但最后 5 个减速器工作大约 1 小时。
发生这种情况是因为我的输入数据包含一些巨大的条目,并且处理这些条目需要大量时间。这种情况的最佳做法是什么?我是否应该进行一些 hadoop/tez/hive 调整以允许对最后一个减速器进行并行处理,或者通过其他参数拆分输入数据以避免大量条目会更聪明?
感谢您的任何建议。