嗨,我正在使用 datastax 企业进行 hadoop 和 cassandra 集成。我已经配置了 3 个 cassandra 节点和 2 个分析节点(hive 将在其上运行)。
因此,如果有一些数据不存在于 hive 节点上但在 cassandra 节点上,我会感到困惑,在 map reduce 期间是否不会对其进行处理,或者 map reduce 会从 cassandra 节点中提取数据并运行 map reduce。请帮忙
所以我有 4 台机器(复制因子 3)
machine 1) cassandra node|token value=0 |data owned(25%)
machine 2)-cassandra node|token value=2^127*.5 |data owned(33%)
machine 3)-analytics node|token value=2^127*.25 |data owned(33%)
machine 4) analytics node|token value=2^127*.75 |data owned(8%)
他们不应该各自拥有 25% 而且我现在认为数据将在所有节点中复制,而不仅仅是在 3 个节点中