hadoop - 在 Hadoop 上拆分文件

Question

我在 hadoop 集群上有一个 8.8G 文件，我正在尝试提取某些行以进行测试。

看到 Apache Hadoop 2.6.0没有拆分命令，我怎么能在不下载文件的情况下做到这一点。

如果文件在 linux 服务器上，我会使用：

$ csplit filename %2015-07-17%

前面的命令按预期工作，在 Hadoop 上是否可能接近？

score 0 · Accepted Answer

您可以结合使用 unix 和 hdfs 命令。

hadoop fs -cat filename.dat | head -250 > /redirect/filename

或者，如果文件的最后 KB 足够，您可以使用它。

hadoop fs -tail filename.dat > /redirect/filename

1 回答 1