首先,我是 hadoop 的新手 :)
我有大量的 gzip 文件数据集(gzip 文件中的 TB 文件,每个文件大小约为 100-500mb)。
基本上,我需要对我的 map-reduce 作业的输入进行某种过滤。
我想以各种方式分析这些文件。其中许多作业只需要分析特定格式的文件(特定长度,包含特定单词等 - 各种任意(反转)索引),并且为每个作业处理整个数据集需要不合理的时间。所以我想创建指向 HDFS 中特定块/文件的索引。
我可以手动生成所需的索引,但是如何准确指定要处理的(数千个)特定文件/块作为映射器的输入?我可以在不将源数据读入例如 HBase 的情况下执行此操作吗?我想要吗?还是我完全错误地解决了这个问题?