我使用 datastax/spark-cassandra-connector 和 C* 表使用 1B+ 行(datastax-enterprise dse 4.7.0)处理 spark 1.2.1。我需要对时间戳参数执行范围过滤/位置查询。
在不加载整个 1B+ 行表来触发内存(可能需要几个小时才能完成)并将查询推回 C* 的情况下,最好的方法是什么?
使用带有 JoinWithCassandraTable 的 rdd 或使用带有下推的数据框?还有别的吗?
我使用 datastax/spark-cassandra-connector 和 C* 表使用 1B+ 行(datastax-enterprise dse 4.7.0)处理 spark 1.2.1。我需要对时间戳参数执行范围过滤/位置查询。
在不加载整个 1B+ 行表来触发内存(可能需要几个小时才能完成)并将查询推回 C* 的情况下,最好的方法是什么?
使用带有 JoinWithCassandraTable 的 rdd 或使用带有下推的数据框?还有别的吗?
JoinWithCassandraTable 在我的案例中变成了最好的解决方案。我从这篇文章中学到了很多东西:http ://www.datastax.com/dev/blog/zen-art-spark-maintenance并发布了链接问题的答案:Spark JoinWithCassandraTable on TimeStamp partition key STUCK
这一切都是为了以正确的方式构建您的 C* 表(选择好的分区键非常重要)以供您未来的查询使用。