0

我有一种情况,我想“迭代”或映射到“宽行”而不是使用 SparkSQL 的逻辑 Cassandra 行(CQL 行)。

基本上我的数据按timestamp(分区键)分区,并且有一个集群键,即传感器 ID。

对于每个timestamp我想执行的操作,一个简单的例子是做sensor1/sensor2.

我如何通过保持数据局部性来有效地使用 SparkSQL 做到这一点(而且我认为我的数据模型非常适合这些任务)?

在 Datastax 上阅读了这篇文章,其中提到spanByspanByKeyCassandra 连接器。这将如何与 SparkSQL 一起使用?

伪代码示例(pySpark):

ds = sqlContext.sql("SELECT * FROM measurements WHERE timestamp > xxx")
# span the ds by clustering key
# filter the ds " sensor4 > yyy "
# for each wide-row do sensor4 / sensor1
4

1 回答 1

1

现在不可能。spanByAPI 只能从编程 API 访问。要在 SparkSQL 中启用它,需要扩展 SparkSQL 语法以注入额外的子句,这是一项艰巨的工作......

于 2016-03-13T13:36:26.053 回答