我有一个项目,要求以分布式方式从外部源下载文件。我们已经在 Hadoop 上进行了大量投资,并希望利用 MapReduce——但更多的是作为分布式任务而不是 ETL。
1)以前有人做过吗?
2)应该只有一个没有Reducer的Mapper吗?
3) 将 FTP/HTTP 连接的抽象实现传递给 Mapper 的最佳方法是什么?-- 需要明确的是,我想要一种很好的方法来单元测试而不进行集成测试,因此需要一种模拟 FTP/HTTP 的方法。
4) MapReduce 是这类事情的最佳方法吗?——我们在滥用 MapReduce 吗?
谢谢你。