我尝试了使用 tez 处理大数据(大约 150GB)的过程(句子的词标签),但问题是它花了很多时间(1 周或更长时间),然后
我试图指定映射器的数量。虽然我设置了mapred.map.tasks = 2000,但是我无法阻止mapper被设置为150左右,所以我不能做我想做的事。
我在 oozie 工作流文件中指定地图值并使用 tez.
如何指定映射器的数量?
最后我想加快进程,不用tez也没关系。
另外,我想用reducer计算标记的句子,也需要很多时间。
而且,我还想知道如何调整内存大小以使用每个映射器和减速器进程。