我有三种不同的解决方案,我用 document_ids 存储文档(搜索引擎、nosql 数据库和自行开发的语义索引应用程序)。
我正在针对所有不同的解决方案运行查询,并希望使用类似于 SQL JOIN 的方法来合并它们。这意味着我有时可能需要在 document_id 上加入 3 个或更多不同的数据集。
您知道 Hadoop 上的 Map Reduce 或类似的东西是否是解决此问题的最佳方法?这些数据集可以包含从 1 document_id 到 100 000 的任何地方。
谢谢你的时间!