我不知道为什么 DISTINCT 在 Pig 中比 GROUP BY/FOREACH 快,它们在 MapReduce 框架中应该是相同的,但请参阅:
http://pig.apache.org/docs/r0.10.0/perf.html#distinct
Pig wiki 说:“要从关系中的列中提取唯一值,您可以使用 DISTINCT 或 GROUP BY/GENERATE。DISTINCT 是首选方法;它更快、更有效。”
为什么?实施方式是否不同?
我不知道为什么 DISTINCT 在 Pig 中比 GROUP BY/FOREACH 快,它们在 MapReduce 框架中应该是相同的,但请参阅:
http://pig.apache.org/docs/r0.10.0/perf.html#distinct
Pig wiki 说:“要从关系中的列中提取唯一值,您可以使用 DISTINCT 或 GROUP BY/GENERATE。DISTINCT 是首选方法;它更快、更有效。”
为什么?实施方式是否不同?