hadoop - 在 cassandra 集群上使用 hive 映射减少

Question

嗨，我正在使用 datastax 企业进行 hadoop 和 cassandra 集成。我已经配置了 3 个 cassandra 节点和 2 个分析节点（hive 将在其上运行）。

因此，如果有一些数据不存在于 hive 节点上但在 cassandra 节点上，我会感到困惑，在 map reduce 期间是否不会对其进行处理，或者 map reduce 会从 cassandra 节点中提取数据并运行 map reduce。请帮忙

所以我有 4 台机器（复制因子 3）

machine 1) cassandra node|token value=0         |data owned(25%)
machine 2)-cassandra node|token value=2^127*.5  |data owned(33%)
machine 3)-analytics node|token value=2^127*.25 |data owned(33%)
machine 4) analytics node|token value=2^127*.75 |data owned(8%)

他们不应该各自拥有 25% 而且我现在认为数据将在所有节点中复制，而不仅仅是在 3 个节点中

score 2 · Accepted Answer

DSE 将确保将您的数据集的完整副本复制到您指定为分析的任何节点集。所以一般来说是没有问题的。如果足够多的分析节点出现故障，它可能必须转到非分析节点来获取数据……但最好建议您将分析节点重新联机。

hadoop - 在 cassandra 集群上使用 hive 映射减少

1 回答 1

Related

Reference