3

根据轻快的实现 [Presentation in Cassandra SF] - Cassandra、CFS、Job/Task Tracker 和 Hive Metastore 在单个 JVM 中运行,这与配置独立的 hadoop 集群完全不同。

这是优势吗?

如果 Task Tracker 或 JVM 中的任何单个进程失败会发生什么?这会影响同一个 JVM 中的 cassandra 实例吗?

CFS 如何从中获取数据?是将 SSTables 存储为子块还是它的副本?子块的压缩在哪里完成?

问候, 泰米尔语

4

1 回答 1

3

Brisk 确实在单个 JVM 中运行所有这些,但在不相互影响的单独独立线程中运行。跟踪器在专用节点上运行,但没有单点故障。可以选择任何节点来运行跟踪器,并且所有状态都保存在 Cassandra 集群中。

这一切都在同一个 JVM 中的优点是,将数据从 Cassandra 移动到 Hadoop 代码中没有复制和序列化开销。

CassandraFS 将 64MB HDFS 块分成 2MB 块并将它们作为列存储在 Cassandra 中,每个块一行。文件本身被映射到 inodes 列族中的块行 UUID 列表。

于 2011-11-03T23:54:26.603 回答