Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
背景:
我在 HDFS 目录中有一些 gzip 文件。这些文件以 yyyy-mm-dd-000001.gz、yyyy-mm-dd-000002.gz 等格式命名。
目标:
我想构建一个配置单元脚本,它生成一个包含以下列的表:第 1 列 - 日期 (yyyy-mm-dd),第 2 列 - 总文件大小。
具体来说,我想总结一下特定日期所有 gzip 文件的大小。总和将是第 2 列中的值和第 1 列中的日期。
这可能吗?是否有任何内置函数或 UDF 可以帮助我处理我的用例?
提前致谢!
用于此的 MapReduce 作业似乎效率不高,因为您实际上不必加载任何数据。另外,在 Hive 中这样做似乎有点尴尬。
你能写一个 bash 脚本或 python 脚本或类似的东西来解析输出hadoop fs -ls吗?我会想象这样的事情:
hadoop fs -ls
$ hadoop fs -ls mydir/*gz | python datecount.py | hadoop fs -put - counts.txt