我有一种情况,我想“迭代”或映射到“宽行”而不是使用 SparkSQL 的逻辑 Cassandra 行(CQL 行)。
基本上我的数据按timestamp
(分区键)分区,并且有一个集群键,即传感器 ID。
对于每个timestamp
我想执行的操作,一个简单的例子是做sensor1/sensor2
.
我如何通过保持数据局部性来有效地使用 SparkSQL 做到这一点(而且我认为我的数据模型非常适合这些任务)?
我在 Datastax 上阅读了这篇文章,其中提到spanBy
了spanByKey
Cassandra 连接器。这将如何与 SparkSQL 一起使用?
伪代码示例(pySpark):
ds = sqlContext.sql("SELECT * FROM measurements WHERE timestamp > xxx")
# span the ds by clustering key
# filter the ds " sensor4 > yyy "
# for each wide-row do sensor4 / sensor1