multithreading - 多核服务器上的mongodb map reduce

Question

我有一个带有数千条记录的 mongodb，其中包含很长的向量。我正在使用某种算法寻找输入向量与我的 MDB 数据集之间的相关性。

伪代码：

function find_best_correlation(input_vector)
    max_correlation = 0
    return_vector = []
    foreach reference_vector in dataset:
        if calculateCorrelation(input_vector,reference_vector) > max_correlation then:
            return_vector = reference_vector
    return return_vector

这是 map-reduce 模式的一个非常好的候选者，因为我不关心计算的运行顺序。

问题是我的数据库在一个节点上。我想同时运行多个映射（我有一台 8 核机器）

据我了解，MongoDb 每个节点只使用一个执行线程——实际上我是串行运行我的数据集。这个对吗？

如果是这样，我可以配置每次 map-reduce 运行的进程/线程数吗？如果我管理并行运行 map-reduce 的多个线程，然后汇总结果，我会显着提高性能（有没有人尝试过）？如果没有 - 我可以在同一个节点上对我的数据库进行多次复制并“欺骗”mongoDb 以在 2 个复制上运行吗？

谢谢！

score 7 · Accepted Answer

MongoDB 中的 Map reduce 使用 Spidermonkey，一种单线程 Javascript 引擎，因此无法配置多个进程（也没有“技巧”）。有一个使用多线程 JS 引擎的 JIRA 票证，您可以在此处关注： https ://jira.mongodb.org/browse/SERVER-2407

如果可能，我会考虑研究新的聚合框架（在 MongoDB 版本 2.2 中可用），它是用 C++ 而不是 Javascript 编写的，并且可能会提供性能改进： http ://docs.mongodb.org/manual/applications/aggregation/

multithreading - 多核服务器上的mongodb map reduce

1 回答 1

Related

Reference