-1

背景:

我在 HDFS 目录中有一些 gzip 文件。这些文件以 yyyy-mm-dd-000001.gz、yyyy-mm-dd-000002.gz 等格式命名。

目标:

我想构建一个配置单元脚本,它生成一个包含以下列的表:第 1 列 - 日期 (yyyy-mm-dd),第 2 列 - 总文件大小。

具体来说,我想总结一下特定日期所有 gzip 文件的大小。总和将是第 2 列中的值和第 1 列中的日期。

这可能吗?是否有任何内置函数或 UDF 可以帮助我处理我的用例?

提前致谢!

4

1 回答 1

0

用于此的 MapReduce 作业似乎效率不高,因为您实际上不必加载任何数据。另外,在 Hive 中这样做似乎有点尴尬。

你能写一个 bash 脚本或 python 脚本或类似的东西来解析输出hadoop fs -ls吗?我会想象这样的事情:

$ hadoop fs -ls mydir/*gz | python datecount.py | hadoop fs -put - counts.txt
于 2015-04-10T22:16:13.313 回答