mongodb - MongoDB - 使用聚合框架或 mapreduce 匹配文档中的字符串数组（配置文件匹配）

Question

我正在构建一个可以比作约会应用程序的应用程序。

我有一些结构如下的文件：

$ db.profiles.find().pretty()

[
  {
    "_id": 1,
    "firstName": "John",
    "lastName": "Smith",
    "fieldValues": [
      "favouriteColour|red",
      "food|pizza",
      "food|chinese"
    ]
  },
  {
    "_id": 2,
    "firstName": "Sarah",
    "lastName": "Jane",
    "fieldValues": [
      "favouriteColour|blue",
      "food|pizza",
      "food|mexican",
      "pets|yes"
    ]
  },
  {
    "_id": 3,
    "firstName": "Rachel",
    "lastName": "Jones",
    "fieldValues": [
      "food|pizza"
    ]
  }
]

我正在尝试的是识别在一个或多个上相互匹配的配置文件fieldValues。

因此，在上面的示例中，我的理想结果如下所示：

<some query>

result:
[
  {
    "_id": "507f1f77bcf86cd799439011",
    "dateCreated": "2013-12-01",
    "profiles": [
      {
        "_id": 1,
        "firstName": "John",
        "lastName": "Smith",
        "fieldValues": [
          "favouriteColour|red",
          "food|pizza",
          "food|chinese"
        ]
      },
      {
        "_id": 2,
        "firstName": "Sarah",
        "lastName": "Jane",
        "fieldValues": [
          "favouriteColour|blue",
          "food|pizza",
          "food|mexican",
          "pets|yes"
        ]
      },

    ]
  },
  {
    "_id": "356g1dgk5cf86cd737858595",
    "dateCreated": "2013-12-02",
    "profiles": [
      {
        "_id": 1,
        "firstName": "John",
        "lastName": "Smith",
        "fieldValues": [
          "favouriteColour|red",
          "food|pizza",
          "food|chinese"
        ]
      },
      {
        "_id": 3,
        "firstName": "Rachel",
        "lastName": "Jones",
        "fieldValues": [
          "food|pizza"
        ]
      }
    ]
  }
]

我考虑过将其作为 map reduce 或使用聚合框架来实现。

无论哪种方式，“结果”都会被保存到一个集合中（根据上面的“结果”）

我的问题是两者中哪一个更适合？我将从哪里开始实施呢？

编辑

简而言之，模型不能轻易更改。
这不像传统意义上的“个人资料”。

我基本上想要做的（在伪代码中）是这样的：

foreach profile in db.profiles.find()
  foreach otherProfile in db.profiles.find("_id": {$ne: profile._id})
    if profile.fieldValues matches any otherProfie.fieldValues
      //it's a match!

显然那种操作非常非常慢！

值得一提的是，这些数据从未显示，它实际上只是一个用于“匹配”的字符串值

score 10 · Accepted Answer

MapReduce 将在单独的线程中运行 JavaScript，并使用您提供的代码来发出和减少文档的某些部分，以在某些字段上进行聚合。您当然可以将练习视为对每个“fieldValue”的聚合。聚合框架也可以做到这一点，但会更快，因为聚合将在 C++ 中的服务器上运行，而不是在单独的 JavaScript 线程中。但是聚合框架可能会返回超过 16MB 的数据，在这种情况下，您需要对数据集进行更复杂的分区。

但似乎问题比这简单得多。您只想为每个配置文件查找哪些其他配置文件与其共享特定属性 - 在不知道数据集的大小和性能要求的情况下，我将假设您在 fieldValues 上有一个索引，因此查询会很有效然后你可以通过这个简单的循环得到你想要的结果：

> db.profiles.find().forEach( function(p) { 
       print("Matching profiles for "+tojson(p));
       printjson(
            db.profiles.find(
               {"fieldValues": {"$in" : p.fieldValues},  
                                "_id" : {$gt:p._id}}
            ).toArray()
       ); 
 }  );

输出：

Matching profiles for {
    "_id" : 1,
    "firstName" : "John",
    "lastName" : "Smith",
    "fieldValues" : [
        "favouriteColour|red",
        "food|pizza",
        "food|chinese"
    ]
}
[
    {
        "_id" : 2,
        "firstName" : "Sarah",
        "lastName" : "Jane",
        "fieldValues" : [
            "favouriteColour|blue",
            "food|pizza",
            "food|mexican",
            "pets|yes"
        ]
    },
    {
        "_id" : 3,
        "firstName" : "Rachel",
        "lastName" : "Jones",
        "fieldValues" : [
            "food|pizza"
        ]
    }
]
Matching profiles for {
    "_id" : 2,
    "firstName" : "Sarah",
    "lastName" : "Jane",
    "fieldValues" : [
        "favouriteColour|blue",
        "food|pizza",
        "food|mexican",
        "pets|yes"
    ]
}
[
    {
        "_id" : 3,
        "firstName" : "Rachel",
        "lastName" : "Jones",
        "fieldValues" : [
            "food|pizza"
        ]
    }
]
Matching profiles for {
    "_id" : 3,
    "firstName" : "Rachel",
    "lastName" : "Jones",
    "fieldValues" : [
        "food|pizza"
    ]
}
[ ]

显然，您可以调整查询以不排除已经匹配的配置文件（通过更改{$gt:p._id}为{$ne:{p._id}}和其他调整。但我不确定使用聚合框架或 mapreduce 会获得什么额外价值，因为这并不是真正将单个集合聚合到一个集合上它的字段（根据您显示的输出格式判断）。如果您的输出格式要求是灵活的，那么您当然也可以使用内置的聚合选项之一。

我确实检查了如果围绕单个 fieldValues 进行聚合会是什么样子，这还不错，如果您的输出可以匹配，它可能会对您有所帮助：

> db.profiles.aggregate({$unwind:"$fieldValues"}, 
      {$group:{_id:"$fieldValues", 
              matchedProfiles : {$push:
               {  id:"$_id", 
                  name:{$concat:["$firstName"," ", "$lastName"]}}},
                  num:{$sum:1}
               }}, 
      {$match:{num:{$gt:1}}});
{
    "result" : [
        {
            "_id" : "food|pizza",
            "matchedProfiles" : [
                {
                    "id" : 1,
                    "name" : "John Smith"
                },
                {
                    "id" : 2,
                    "name" : "Sarah Jane"
                },
                {
                    "id" : 3,
                    "name" : "Rachel Jones"
                }
            ],
            "num" : 3
        }
    ],
    "ok" : 1
}

这基本上是说“对于每个 fieldValue ($unwind) group by fieldValue 一个匹配的配置文件 _ids 和名称的数组，计算每个 fieldValue 累积了多少匹配项 ($group)，然后排除只有一个配置文件与之匹配的那些。

score 0 · Accepted Answer

首先，在区分这两者时，MongoDB的聚合框架基本上只是mapreduce，但更多的限制是为了提供更直接的接口。据我所知，聚合框架只能做一般的 mapreduce。

考虑到这一点，问题就变成了：您的转换是否可以在聚合框架中建模，或者您是否需要回退到更强大的 mapreduce。

如果我了解您要做什么，我认为如果您稍微更改架构，聚合框架是可行的。模式设计是 Mongo 最棘手的事情之一，在决定如何构建数据时需要考虑很多事情。尽管对您的申请知之甚少，但我还是会冒险提出建议。

具体来说，我建议您将fieldValues子文档的结构方式更改为以下内容：

{
    "_id": 2,
    "firstName": "Sarah",
    "lastName": "Jane",
    "likes": {
        "colors": ["blue"],
        "foods": ["pizza", "mexican"],
        "pets": true
    }
}

也就是说，将多值属性存储在一个数组中。这将允许您利用聚合框架的$unwind运算符。（请参阅Mongo 文档中的示例。）但是，根据您要完成的任务，这可能合适，也可能不合适。

但是，退后一步，您可能会发现使用聚合框架或Mongo 的 mapreduce 函数并不合适。它们的使用会影响性能，将它们用于应用程序的核心业务逻辑可能不是一个好主意。一般来说，它们的预期用途似乎是用于不经常或临时查询，只是为了深入了解一个人的数据。因此，您最好从“真正的”mapreduce 框架开始。也就是说，我听说过在一项cron工作中使用聚合框架来定期创建核心业务数据的案例。

mongodb - MongoDB - 使用聚合框架或 mapreduce 匹配文档中的字符串数组（配置文件匹配）

2 回答 2

Related

Reference