apache-spark - 跨越 Cassandra 逻辑行的 SparkSQL

Question

我有一种情况，我想“迭代”或映射到“宽行”而不是使用 SparkSQL 的逻辑 Cassandra 行（CQL 行）。

基本上我的数据按timestamp（分区键）分区，并且有一个集群键，即传感器 ID。

对于每个timestamp我想执行的操作，一个简单的例子是做sensor1/sensor2.

我如何通过保持数据局部性来有效地使用 SparkSQL 做到这一点（而且我认为我的数据模型非常适合这些任务）？

我在 Datastax 上阅读了这篇文章，其中提到spanBy了spanByKeyCassandra 连接器。这将如何与 SparkSQL 一起使用？

伪代码示例（pySpark）：

ds = sqlContext.sql("SELECT * FROM measurements WHERE timestamp > xxx")
# span the ds by clustering key
# filter the ds " sensor4 > yyy "
# for each wide-row do sensor4 / sensor1

score 1 · Accepted Answer

现在不可能。spanByAPI 只能从编程 API 访问。要在 SparkSQL 中启用它，需要扩展 SparkSQL 语法以注入额外的子句，这是一项艰巨的工作......

apache-spark - 跨越 Cassandra 逻辑行的 SparkSQL

1 回答 1

Related

Reference