5

我们在一个小的(16M 行)不同的表和一个大的(6B 行)倾斜表之间有一个猪连接。常规连接在 2 小时内完成(经过一些调整)。我们尝试using skewed并能够将性能提高到 20 分钟。

但是,当我们尝试更大的倾斜表(19B 行)时,我们会从 SAMPLER 作业中收到以下消息:

Split metadata size exceeded 10000000. Aborting job job_201305151351_21573 [ScriptRunner]
at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)
at org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:817) [ScriptRunner]

这在我们每次尝试时都是可重现的using skewed,并且在我们使用常规连接时不会发生。

我们尝试了设置mapreduce.jobtracker.split.metainfo.maxsize=-1,我们可以在 job.xml 文件中看到它,但它并没有改变任何东西!

这里发生了什么事?这是由创建的分发示例的错误using skewed吗?为什么将参数更改为 没有帮助-1

4

2 回答 2

1

在较新版本的 Hadoop(>=2.4.0 但可能更早)中,您应该能够使用以下配置属性在作业级别设置最大拆分大小:

mapreduce.job.split.metainfo.maxsize=-1

于 2014-09-29T14:11:36.303 回答
1

1MB 的小表足够小到可以放入内存,请尝试复制连接。复制连接只是 Map,不会像其他类型的连接那样导致 Reduce 阶段,因此不受连接键中的倾斜的影响。它应该很快。

big = LOAD 'big_data' AS (b1,b2,b3);
tiny = LOAD 'tiny_data' AS (t1,t2,t3);
mini = LOAD 'mini_data' AS (m1,m2,m3);
C = JOIN big BY b1, tiny BY t1, mini BY m1 USING 'replicated';

大表始终是语句中的第一个。

更新 1: 如果原始形式的小表不适合内存,那么作为一种解决方法,您需要将小表分区为足够小以适合内存的分区,而不是将相同的分区应用于大表,希望您可以将相同的分区算法添加到创建大表的系统中,这样您就不会浪费时间对其进行重新分区。分区后,您可以使用复制连接,但需要为每个分区单独运行 pig 脚本。

于 2013-06-18T09:16:01.243 回答