scala - 依靠 RDD 给出不同的结果

Question

我有一个超过 7500 万行的 RDD，当我在其上调用count函数时，每次都会得到不同的数字。我的理解是 count 应该给出确切的数字。

编辑

只是为了给数据一个概念，结构是这样的

Userid: 1  
Date: 8/15/2015  
Location: Building 1  
...  
Date 8/1/2015  
Location: Building 5  
...  

Userid: 2  
Date: 7/30/2015  
Location: Building 10 
...
Date: 6/1/2015  
Location: Building 3 
...

分区键：Userid
集群键：Date ORDER BY DESC

Spark 版本：1.2.2
数据来自 Cassandra
API 使用的是 Scala
Spark Cassandra 连接器版本 1.2.2
我刚刚从 Cassandra 读取数据并使用 map 来获取Userid和Location.

score 2 · Accepted Answer

我正在使用读取一致性级别 Local_One 并使用 Quorum 一致性解决了这个问题。潜在的问题是我们的一个节点的突变下降计数很高。

scala - 依靠 RDD 给出不同的结果

1 回答 1

Related

Reference