mongodb - MongoDB：删除基于 ObjectId 的重复文档？

Question

这确实是一个悬而未决的问题。如果这有点含糊，我很抱歉，但我正在尝试收集其他人的想法，因为我对 Mongo 很陌生

情况

我意识到我的收藏有多个重复的文档（基于名称键）
这些文件may be same或might got changed在随后的文件转储期间（我们希望保留以后的更改）
由于没有插入日期，因此很难通过查看文档来判断哪个是最新的（糟糕的架构设计）

通缉

删除之前插入的文档
我读到集合中的每个文档都被分配了一个ObjectId（此处）使文档独一无二

问题

是否可以根据ObjectId知道较早插入的文档并使用删除它Map Reduce？
还有其他想法和建议吗？

score 2 · Accepted Answer

今天晚上我很无聊，所以我们开始吧。

第 1 步。让我们准备测试数据。

> db.users.insert({name: 'John', other_field: Math.random()})
> db.users.insert({name: 'Bob', other_field: Math.random()})
> db.users.insert({name: 'Mary', other_field: Math.random()})
> db.users.insert({name: 'John', other_field: Math.random()})
> db.users.insert({name: 'Jeff', other_field: Math.random()})
> db.users.insert({name: 'Ivan', other_field: Math.random()})
> db.users.insert({name: 'Mary', other_field: Math.random()})
> db.users.find()
{
    "_id" : ObjectId("501976e9bee9b253265bba8b"),
    "name" : "John",
    "other_field" : 0.9884713875252772
}
{
    "_id" : ObjectId("501976e9bee9b253265bba8c"),
    "name" : "Bob",
    "other_field" : 0.048004131996396415
}
{
    "_id" : ObjectId("501976e9bee9b253265bba8d"),
    "name" : "Mary",
    "other_field" : 0.20415803582615222
}
{
    "_id" : ObjectId("501976e9bee9b253265bba8e"),
    "name" : "John",
    "other_field" : 0.5514446987265585
}
{
    "_id" : ObjectId("501976e9bee9b253265bba8f"),
    "name" : "Jeff",
    "other_field" : 0.8685077449753242
}
{
    "_id" : ObjectId("501976e9bee9b253265bba90"),
    "name" : "Ivan",
    "other_field" : 0.2842514340422925
}
{
    "_id" : ObjectId("501976eabee9b253265bba91"),
    "name" : "Mary",
    "other_field" : 0.984048520281136
}

步骤 2. map-reduce

var map = function() {
  emit(this.name, this);
};

var reduce = function(name, vals) {
  var last_obj = null;
  vals.forEach(function(v) {
    if(!last_obj || v._id > last_obj._id) {
      last_obj = v;
    }
  });
  return last_obj;
};

db.users.mapReduce(map, reduce, {out: 'temp_coll'})

它基本上按名称对所有文档进行分组，然后选择最大的文档_id。

步骤 3. 使用独特的数据做一些事情。

> db.temp_coll.find()
{
    "_id" : "Bob",
    "value" : {
        "_id" : ObjectId("501976e9bee9b253265bba8c"),
        "name" : "Bob",
        "other_field" : 0.048004131996396415
    }
}
{
    "_id" : "Ivan",
    "value" : {
        "_id" : ObjectId("501976e9bee9b253265bba90"),
        "name" : "Ivan",
        "other_field" : 0.2842514340422925
    }
}
{
    "_id" : "Jeff",
    "value" : {
        "_id" : ObjectId("501976e9bee9b253265bba8f"),
        "name" : "Jeff",
        "other_field" : 0.8685077449753242
    }
}
{
    "_id" : "John",
    "value" : {
        "_id" : ObjectId("501976e9bee9b253265bba8e"),
        "name" : "John",
        "other_field" : 0.5514446987265585
    }
}
{
    "_id" : "Mary",
    "value" : {
        "_id" : ObjectId("501976eabee9b253265bba91"),
        "name" : "Mary",
        "other_field" : 0.984048520281136
    }
}

例如，删除原始集合，迭代这个集合并将值插入新集合。完成后不要忘记删除临时集合。

重要的

我没有费心从 objectid 中提取时间戳，因为我假设您不是每秒运行两次导入作业（甚至可能不是每秒）。

score 0 · Accepted Answer

好的，因为对象 id 使用时间戳，因为它前导四个字节，你可以用一点数学来做到这一点。

值得庆幸的是，mongo shell 有一种方法可以从对象 id 获取时间戳，您需要做更多的 javascript 来首先查询具有相同名称的文档，然后将它们存储在临时变量（如果使用命令行）或临时表（如果使用驱动程序）并使用下面链接中显示的时间戳获取器解析每个单独的 id。

http://www.mongodb.org/display/DOCS/Optimizing+Object+IDs#OptimizingObjectIDs-Extractinsertiontimesfromidratherthanhaveaseparatetimestampfield。

请记住，对象 ID 仅精确到秒，因此这在快速插入模式下仍然无济于事。

但无论哪种方式，您所要求的都可以在 map reduce 函数中或以上面显示的方式通过命令行执行。

试一试，如果你卡住了，请告诉我。如果我知道你的收藏结构，我可能会很快做出一些东西，但只有在你敲了几次头之后:)

mongodb - MongoDB：删除基于 ObjectId 的重复文档？

情况

通缉

问题

2 回答 2

第 1 步。让我们准备测试数据。

步骤 2. map-reduce

步骤 3. 使用独特的数据做一些事情。

重要的

Related

Reference