1

Crunch 管道可以将 Java spark 上下文作为参数,但如果 spark 应用程序以 SparkSession 实例启动(因为 spark Java 程序包含 Datasets 并需要 sparkSQL)。在这种情况下,如何在 spark 应用程序上添加另一层抽象(紧缩管道)?

4

1 回答 1

0

可能你对概念有误解。Crunch 中的 Spark 管道本质上是让 Crunch 在 Spark Engine 中运行您的代码,而不是在 MapReduce 引擎中运行。与 MapReduce 作业和 Spark 管道相比,Apache Crunch (PCollections) 的抽象是一个高级抽象。

于 2017-05-15T14:16:43.597 回答