0

我有三种不同的解决方案,我用 document_ids 存储文档(搜索引擎、nosql 数据库和自行开发的语义索引应用程序)。

我正在针对所有不同的解决方案运行查询,并希望使用类似于 SQL JOIN 的方法来合并它们。这意味着我有时可能需要在 document_id 上加入 3 个或更多不同的数据集。

您知道 Hadoop 上的 Map Reduce 或类似的东西是否是解决此问题的最佳方法?这些数据集可以包含从 1 document_id 到 100 000 的任何地方。

谢谢你的时间!

4

2 回答 2

0

对于像这样的小型数据集 - 几乎任何东西都可以。特别是 - 我会推荐内存系统,因为您的所有数据都可以轻松放入内存。GridGain就是这样一种解决方案(完全支持 In-Memory MapReduce、SQL 等)。

于 2012-08-18T16:09:12.550 回答
0

如果您需要在加入文档之前的文档处理期间应用大量 CPU,则 Hadoop 非常适合。在同一个作业处理文档中(在 MAP 函数中),您可以使用 shuffle 过程作为连接引擎相对容易。
同时,10 万个项目的简单连接不应该需要比普通的 RDBMS 更多的东西。

于 2012-08-19T14:16:58.900 回答