1

我正在寻找组合 Map-reduce 程序生成的小型 RC 文件的方法。将小型 RC 文件合并到大型 RC 文件的最佳方法是什么。

4

1 回答 1

0

您可以尝试 getmerge 命令。这将源目录和目标文件作为输入,并将源目录中的文件连接到目标文件中。

例如,如果 Hive 表名为 search_combined_rc,则可以将合并后的 rc 文件合并到一个文件中。

hadoop fs -getmerge /user/hive/warehouse/dev.db/search_combined_rc/ /localdata/destinationfilename

由于 RCFile 无法使用打开典型序列文件的工具打开,您可以尝试使用rcfilecat工具显示 RCFile 的内容。您需要将文件从本地目录移回 HDFS。

hive --service rcfilecat /hdfsfilelocation

于 2013-10-21T16:24:58.750 回答