1

嗨,我正在使用 datastax 企业进行 hadoop 和 cassandra 集成。我已经配置了 3 个 cassandra 节点和 2 个分析节点(hive 将在其上运行)。

因此,如果有一些数据不存在于 hive 节点上但在 cassandra 节点上,我会感到困惑,在 map reduce 期间是否不会对其进行处理,或者 map reduce 会从 cassandra 节点中提取数据并运行 map reduce。请帮忙

所以我有 4 台机器(复制因子 3)

machine 1) cassandra node|token value=0         |data owned(25%)
machine 2)-cassandra node|token value=2^127*.5  |data owned(33%)
machine 3)-analytics node|token value=2^127*.25 |data owned(33%)
machine 4) analytics node|token value=2^127*.75 |data owned(8%)

他们不应该各自拥有 25% 而且我现在认为数据将在所有节点中复制,而不仅仅是在 3 个节点中

4

1 回答 1

2

DSE 将确保将您的数据集的完整副本复制到您指定为分析的任何节点集。所以一般来说是没有问题的。如果足够多的分析节点出现故障,它可能必须转到非分析节点来获取数据……但最好建议您将分析节点重新联机。

于 2013-02-24T05:13:28.240 回答