我有一个 DSE 集群,集群中的每个节点都运行 spark 和 Cassandra。
当我从 Cassandra 加载数据以触发 Rdd 并对 rdd 执行一些操作时,我知道数据将分布到多个节点中。就我而言,我想将每个节点的这些 rdds 直接写入其本地 Cassandra dB 表,无论如何都可以这样做。
如果我进行正常的 rdd 收集,来自 spark 节点的所有数据将被合并并返回到带有驱动程序的节点。我不希望这种情况发生,因为从节点返回驱动节点的数据流可能需要很长时间,我希望数据直接保存到本地节点以避免数据跨火花节点移动。