1

我在 hadoop 集群上有一个 8.8G 文件,我正在尝试提取某些行以进行测试。

看到 Apache Hadoop 2.6.0没有拆分命令,我怎么能在不下载文件的情况下做到这一点。

如果文件在 linux 服务器上,我会使用:

$ csplit filename %2015-07-17%

前面的命令按预期工作,在 Hadoop 上是否可能接近?

4

1 回答 1

0

您可以结合使用 unix 和 hdfs 命令。

hadoop fs -cat filename.dat | head -250 > /redirect/filename

或者,如果文件的最后 KB 足够,您可以使用它。

hadoop fs -tail filename.dat > /redirect/filename
于 2015-09-24T17:05:41.030 回答