5

在下面的代码中,函数 fn1 和 fn2 似乎以顺序方式应用于 inRDD,正如我在 Spark Web UI 的 Stages 部分中看到的那样。

 DstreamRDD1.foreachRDD(new VoidFunction<JavaRDD<String>>()
 { 
     public void call(JavaRDD<String> inRDD)
        {
          inRDD.foreach(fn1)
          inRDD.foreach(fn2)
        }
 }

以这种方式运行流式作业时有何不同。以下函数是否在输入 Dstream 上并行运行?

DStreamRDD1.foreachRDD(fn1)
DStreamRDD2.foreachRDD(fn2)
4

1 回答 1

2

foreachonRDDforeachRDDon都DStream将按顺序运行,因为它们是输出转换,这意味着它们会导致图的具体化。Spark 中的任何一般惰性转换都不是这种情况,当执行图分为多个单独的阶段时,它可以并行运行。

例如:

dStream: DStream[String] = ???
val first = dStream.filter(x => x.contains("h"))
val second = dStream.filter(x => !x.contains("h"))

first.print()
second.print()

当您有足够的集群资源来并行运行底层阶段时,第一部分不需要顺序执行。然后,再次调用count输出转换将导致print语句一个接一个地打印。

于 2016-11-22T09:58:02.190 回答