mongodb - MongoDB批量FindAndModify的解决方案

Question

我的用例如下 - 我在 mongoDB 中有一组文档，我必须发送这些文档进行分析。文件格式如下——

{ _id:ObjectId("517e769164702dacea7c40d8") ，日期：“1359911127494”，状态：“可用”，其他字段... }

我有一个阅读器进程，它选择前 100 个具有status:available按日期排序的文档，并使用status:processing修改它们。ReaderProcess 发送文档进行分析。分析完成后，状态将更改为已处理。

当前阅读器进程首先获取按日期排序的 100 个文档，然后在循环中更新状态以处理每个文档。这种情况有没有更好/有效的解决方案？

此外，将来为了可扩展性，我们可能会使用多个阅读器进程。在这种情况下，我希望一个阅读器进程选择的 100 个文档不应该被另一个阅读器进程选择。但是现在获取和更新是单独的查询，因此多个阅读器进程很可能会选择相同的文档。

批量findAndModify（有限制）可以解决所有这些问题。但不幸的是，它还没有在 MongoDB 中提供。这个问题有什么解决办法吗？

score 13 · Accepted Answer

正如你所提到的，目前没有干净的方法来做你想做的事。目前，对于您需要的操作，最好的方法是：

阅读器选择具有适当限制和排序的 X 文档
Reader 用自己唯一的 reader ID ( e.g. update({_id:{$in:[<result set ids>]}, state:"available", $isolated:1}, {$set:{readerId:<your reader's ID>, state:"processing"}}, false, true))标记 1) 返回的文档
阅读器选择所有标记为正在处理并具有自己阅读器 ID 的文档。此时，可以保证您对生成的文档集具有独占访问权限。
提供来自 3) 的结果集供您处理。

请注意，这甚至在高度并发的情况下也有效，因为阅读器永远无法保留尚未被另一个阅读器保留的文档（请注意，步骤 2 只能保留当前可用的文档，并且写入是原子的）。如果您希望能够使预订超时（例如对于读者可能崩溃/失败的情况），我也会添加一个带有预订时间的时间戳。

编辑：更多细节：

如果写入需要相对较长的时间，则所有写入操作偶尔会为挂起的操作产生。这意味着除非您采取以下步骤，否则步骤 2) 可能看不到步骤 1) 标记的所有文档：

使用适当的“w”（写关注）值，表示 1 或更高。这将确保调用写入操作的连接将等待它完成，而不管它是否产生。
确保在同一连接（仅与启用了 slaveOk 读取的副本集相关）或线程上执行步骤 2 中的读取，以保证它们是连续的。前者可以在大多数驱动程序中使用“requestStart”和“requestDone”方法或类似方法完成（此处为 Java 文档）。
- 将 $isolated 标志添加到您的多重更新中，以确保它不会与其他写入操作交错。

另请参阅有关原子性/隔离性讨论的评论。我错误地认为多重更新是孤立的。它们不是，或者至少不是默认情况下。

1 回答 1