有谁知道任何列出所有操作员(如分组、流式处理等)的 Apache pig 文档以及 PIG 采取的相应操作,即操作员导致的 MR 作业类型/计数?
我对流方面特别感兴趣,它如何映射到 MR 作业。
有谁知道任何列出所有操作员(如分组、流式处理等)的 Apache pig 文档以及 PIG 采取的相应操作,即操作员导致的 MR 作业类型/计数?
我对流方面特别感兴趣,它如何映射到 MR 作业。
然而,这还不是一个完整的列表,但我认为值得阅读以下文章/部分:
在 Map-Reduce 之上构建高级数据流系统:Pig 体验
(第 4 节。MapReduce 的编译)
http://infolab.stanford.edu/~olston/publications/vldb09.pdf
Pig Latin: A Not-So-Foreign Language for Data Processing
(Chapter 4.2 Map-Reduce Plan Compilation)
http://infolab.stanford.edu/~olston/publications/sigmod08.pdf
此外,您始终可以在脚本上发出EXPLAIN或ILLUSTRATE以查看幕后发生的情况。