2

我正在尝试将 100 万个文本文件上传到 HDFS。因此,使用 Eclipse 上传这些文件大约需要 2 个小时。谁能给我建议任何快速的技术来做这件事。?我在想的是:要将所有文本文件压缩成一个 zip,然后将其上传到 HDFS,最后使用一些解压缩技术,我会将这些文件解压缩到 HDFS。任何帮助将不胜感激。

4

2 回答 2

2

Distcp 是将文件上传到 HDFS 的好方法,但对于您的特定用例(您希望将本地文件上传到在同一台计算机上运行的单节点集群),最好的办法是根本不将文件上传到 HDFS。您可以使用 localfs ( file://a_file_in_your_local_disk) 代替 HDFS,因此无需上传文件。

有关如何执行此操作的示例,请参阅此其他SO 问题。

于 2013-10-12T00:12:23.190 回答
1

尝试DistCp。DistCp(分布式副本)是用于大型集群间/集群内复制的工具。它使用 Map/Reduce 来影响其分布、错误处理和恢复以及报告。您也可以使用它将数据从本地 FS 复制到 HDFS。

示例:bin/hadoop distcp file:///Users/miqbal1/dir1 hdfs://localhost:9000/

于 2013-10-11T22:02:44.377 回答