我的数据按Cassandra上的分区键组织得很好。我想在Spark中检索这些数据并保持相同的分区。
我的目标是避免非常大的洗牌。
PS:我正在使用 Cassandra 2.1 和 Spark 1.5
我的数据按Cassandra上的分区键组织得很好。我想在Spark中检索这些数据并保持相同的分区。
我的目标是避免非常大的洗牌。
PS:我正在使用 Cassandra 2.1 和 Spark 1.5
Spark Cassandra 连接器将 C* 令牌范围读入 Spark 分区。这意味着任何给定 Cassandra 分区键的所有值都将位于同一个 Spark 分区中。
https://academy.datastax.com/demos/how-spark-cassandra-connector-reads-data