我需要 Map 作业生成一组输入记录,这些记录应该提供给 Map 作业(通过 JobTracker?)。
我想不出解决方案,需要您的帮助。
更多细节:我打算写网络爬虫。初始根级网页将输入到 mapreduce 作业。Mapper/reducer 将获取网页并从页面收集链接。这些链接应被视为 mapreduce 作业的输入。所以我想将这些链接推送到jobtracker,以便可以像对第一个根节点所做的那样处理它们。我们可以添加一些终端条件(例如链接正则表达式匹配)。如果正则表达式匹配,则它不会被 map(或 reduce)任务放回 jobtracker。