mapreduce 和任何其他 hadoop 技术(HBase、Hive、pig 等)是否非常适合您有多个输入文件以及需要在不同数据源之间比较数据的情况。
过去,我使用 Hadoop 和 Pig 编写了一些 mapreduce 作业。然而,这些任务非常简单,因为它们只涉及处理单个数据集。我们现在的要求要求我们从多个来源读取数据,并对另一个数据源上的各种数据元素进行比较。然后我们报告差异。我们正在使用的数据集在 1000 万到 6000 万条记录范围内,到目前为止,我们还没有足够快地完成这些工作。
是否有使用 mapreduce 来解决此类问题的案例,或者我是否走错了路。
任何建议都非常感谢。