我有一个 hadoop 应用程序 - 取决于参数 - 只需要输入目录中的某些(少数!)输入文件。我现在的问题是:跳过这些文件的最佳位置(阅读:尽可能早)在哪里?现在我定制了一个 RecordReader 来处理这个问题,但我想知道我是否可以更快地跳过这些文件?在我目前的实现中,由于文件不相关,hadoop 仍然有巨大的开销。
也许我应该补充一点,很容易看出我是否需要某个输入文件。如果文件名以参数开头,则需要它。分层构造我的输入目录可能是一种解决方案,但对于我的项目来说不太可能,因为每个文件最终都会在某个目录中孤独。