我有一个来自 Kafka 的流式传输作业(使用createDstream
)。它的“id”流
[id1,id2,id3 ..]
我有一个实用程序或 api,它接受一个 id 数组并进行一些外部调用并接收一些信息,每个 id 都说“t”
[id:t1,id2:t2,id3:t3...]
我想DStream
在调用实用程序时保留 Dstream。我不能在 Dstream rdd 上使用地图转换,因为它会调用每个 id,而且该实用程序正在接受 id 的集合。
Dstream.map(x=> myutility(x)) -- ruled out
如果我使用
Dstream.foreachrdd(rdd=> myutility(rdd.collect.toarray))
我失去了DStream
. 我需要保留DStream
用于下游处理。