mapreduce - map reduce 用于连接数据集？

Question

我有三种不同的解决方案，我用 document_ids 存储文档（搜索引擎、nosql 数据库和自行开发的语义索引应用程序）。

我正在针对所有不同的解决方案运行查询，并希望使用类似于 SQL JOIN 的方法来合并它们。这意味着我有时可能需要在 document_id 上加入 3 个或更多不同的数据集。

您知道 Hadoop 上的 Map Reduce 或类似的东西是否是解决此问题的最佳方法？这些数据集可以包含从 1 document_id 到 100 000 的任何地方。

谢谢你的时间！

score 0 · Accepted Answer

对于像这样的小型数据集 - 几乎任何东西都可以。特别是 - 我会推荐内存系统，因为您的所有数据都可以轻松放入内存。GridGain就是这样一种解决方案（完全支持 In-Memory MapReduce、SQL 等）。

score 0 · Accepted Answer

如果您需要在加入文档之前的文档处理期间应用大量 CPU，则 Hadoop 非常适合。在同一个作业处理文档中（在 MAP 函数中），您可以使用 shuffle 过程作为连接引擎相对容易。
同时，10 万个项目的简单连接不应该需要比普通的 RDBMS 更多的东西。

2 回答 2