apache-spark - 与 CQL 相比，Spark 有哪些额外的好处？

Question

我们正在为 cassandra 探索 SPARK，以克服 CQL 的限制。

我们最初仅限于 CQL，但在 RDBMS 上几乎没有遇到障碍/障碍。仅举几例如下

为了在列上比较>（大于）和<（小于），我们被限制为具有 Clustering 键中的列。即使我在集群中有一个列，我仍然应该提供分区键来对集群键执行 < 或 >。
无法检查任何列值的 NULL
为了查询其他分区键的任何列，我们必须在该列上创建索引
ORDER BY 不是 CLUSTERING KEY 的列
分组限制
连接表

我是 cassandra 的新手，由于限制，我经常重新访问我的模式。

因此类似于 HDFS 的 HIVE/PIG，Spark 比 CQL 有什么额外的好处？

score 2 · Accepted Answer

CQL 不是 SQL 的替代品。它实际上是为从几个（通常是一个）分区键中提取值而设计的，并且正如您所指出的，它不会进行任何类型的聚合、分组、非常有限的排序等（尽管 Cassandra 3.0 将具有 UDF 和 UDA） .

以下是 Spark 通过 CQL 提供的功能：

Spark 确实是与 CQL 完全不同的野兽。它提供对大量数据的复杂分析，而 CQL 没有。但是，也有一些限制：

如果您想通过 Cassandra 进行非常快速的分析查询，支持更新且无需缓存，请查看我的项目http://github.com/tuplejump/FiloDB。

1 回答 1