我们正在为 cassandra 探索 SPARK,以克服 CQL 的限制。
我们最初仅限于 CQL,但在 RDBMS 上几乎没有遇到障碍/障碍。仅举几例如下
- 为了在列上比较>(大于)和<(小于),我们被限制为具有 Clustering 键中的列。即使我在集群中有一个列,我仍然应该提供分区键来对集群键执行 < 或 >。
- 无法检查任何列值的 NULL
- 为了查询其他分区键的任何列,我们必须在该列上创建索引
- ORDER BY 不是 CLUSTERING KEY 的列
- 分组限制
- 连接表
我是 cassandra 的新手,由于限制,我经常重新访问我的模式。
因此类似于 HDFS 的 HIVE/PIG,Spark 比 CQL 有什么额外的好处?