15

我有一个带有文档的 mongo 集合。每个文档中有一个字段为 0 或 1。我需要从数据库中随机抽样 1000 条记录,并将具有该字段的文档数计算为 1。我需要进行 1000 次抽样。我该怎么做 ?

4

5 回答 5

19

对于想要回答的人,您现在应该使用$sample3.2 中的新聚合函数。

https://docs.mongodb.org/manual/reference/operator/aggregation/sample/

db.collection_of_things.aggregate(
   [ { $sample: { size: 15 } } ]
)

然后添加另一个步骤来计算0s 和1s$group用于获取计数。这是 MongoDB 文档中的一个示例

于 2016-02-09T18:01:29.430 回答
11

对于 MongoDB 3.0 及之前的版本,我使用了 SQL 时代的一个老技巧(我认为 Wikipedia 将其用于他们的随机页面功能)。我在需要随机化的每个对象中存储一个介于 0 和 1 之间的随机数,我们称该字段为“r”。然后在“r”上添加一个索引。

db.coll.ensureIndex(r: 1);

现在要获取随机 x 对象,您可以使用:

var startVal = Math.random();
db.coll.find({r: {$gt: startVal}}).sort({r: 1}).limit(x);

这为您在单个查找查询中提供了随机对象。根据您的需要,这可能有点过头了,但是如果您要随着时间的推移进行大量采样,这是一种非常有效的方法,不会给您的后端增加负担。

于 2012-11-12T10:24:16.570 回答
4

这是 shell 中的一个示例mongo.. 假设集合collname和 感兴趣的值thefield

var total = db.collname.count();
var count = 0;
var numSamples = 1000;

for (i = 0; i < numSamples; i++) {
    var random = Math.floor(Math.random()*total);
    var doc = db.collname.find().skip(random).limit(1).next();
    if (doc.thefield) {
        count += (doc.thefield == 1);
    }
}
于 2012-10-01T11:57:01.303 回答
1

我打算用这个来编辑我对@Stennies 答案的评论,但是如果您要跳过大量记录(在这里说大话),您也可以在此处使用单独的自动递增 ID 索引作为替代方案。

我为另一个问题写了另一个答案,很像这个问题,有人试图找到集合的第 n 条记录:

php mongodb在集合中找到第n个条目

我的答案的后半部分基本上描述了一种解决此问题的潜在方法。当然,您仍然需要循环 1000 次才能获得随机行。

于 2012-10-01T14:03:15.317 回答
0

如果您使用的是 mongoengine,则可以使用 SequenceField 来生成增量计数器。

class User(db.DynamicDocument):
    counter = db.SequenceField(collection_name="user.counters")

然后要获取 100 个随机列表,请执行以下操作

def get_random_users(number_requested):
    users_to_fetch = random.sample(range(1, User.objects.count() + 1), min(number_requested, User.objects.count()))
    return User.objects(counter__in=users_to_fetch)

你会打电话的地方

get_random_users(100)
于 2015-04-17T23:31:11.540 回答