我是一个新手,Spark
我有一个项目,其中有coordinator
一个cluster
,它从另一个收集数据nodes
,进行一些计算并将一个global data array
返回给nodes
.
我正在尝试实现这一点Spark
,并且我用 and 创建了它,driver
但broadcast variables
我不确定collect()
大数据中的。
是否可以仅在 之间执行此操作workers
?类似于repartition
一对一worker
并将计算作为输入发送回workers
?