1

在查询性能方面,从位于本地文件系统上的 Shark 中的外部表进行查询与使用位于 HDFS 上的数据相比如何?我计划使用单个高端服务器来运行鲨鱼查询,并且想知道是否绝对有必要安装 hadoop/hdfs。

4

1 回答 1

1

一般来说,如果您已经打算在单个高端服务器上运行,则无需设置 HDFS。在这种情况下,您实际上应该比在单台机器上安装 HDFS 获得更好的性能,因为您不会产生额外的开销来执行额外的往返本地主机只是为了获取文件元数据,或者额外的间接HDFS 将文件映射到一系列不透明块上,这些块本身就是本地文件系统上的文件。

请注意,您仍然会自动从 Shark 通过 Hadoop RawLocalFileSystem(这是未明确设置 HDFS 时加载的默认“Hadoop 文件系统”)中受益,因此 Shark 将有效地认为它使用的是 HDFS 等价物。这意味着将来,如果您确实需要在分布式集群上运行,只需修改 fs.default.name 就可以了,其他一切都将与您在单机设置上习惯的一样工作.

于 2014-08-16T05:03:31.643 回答