我们在一个小的(16M 行)不同的表和一个大的(6B 行)倾斜表之间有一个猪连接。常规连接在 2 小时内完成(经过一些调整)。我们尝试using skewed
并能够将性能提高到 20 分钟。
但是,当我们尝试更大的倾斜表(19B 行)时,我们会从 SAMPLER 作业中收到以下消息:
Split metadata size exceeded 10000000. Aborting job job_201305151351_21573 [ScriptRunner]
at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)
at org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:817) [ScriptRunner]
这在我们每次尝试时都是可重现的using skewed
,并且在我们使用常规连接时不会发生。
我们尝试了设置mapreduce.jobtracker.split.metainfo.maxsize=-1
,我们可以在 job.xml 文件中看到它,但它并没有改变任何东西!
这里发生了什么事?这是由创建的分发示例的错误using skewed
吗?为什么将参数更改为 没有帮助-1
?