5

我有一个模型,下面,我想获得所有不同的area值。SQL 等价物是select distinct area from tutorials

class Tutorials(db.Model):  
    path = db.StringProperty()
    area = db.StringProperty()
    sub_area = db.StringProperty()
    title = db.StringProperty()
    content = db.BlobProperty()
    rating = db.RatingProperty()
    publishedDate = db.DateTimeProperty()
    published = db.BooleanProperty()

我知道在 Python 中我可以做到

    a = ['google.com', 'livejournal.com', 'livejournal.com', 'google.com', 'stackoverflow.com']
 b = set(a)
    b
    >>> set(['livejournal.com', 'google.com', 'stackoverflow.com'])

但这需要我将区域项目从查询中移出到另一个列表中,然后针对列表运行设置(听起来效率非常低),如果我在数据存储中的位置 1001 有一个不同的项目,我不会看到它,因为获取限制为 1000。

我想在我的数据存储中获取所有不同的区域值,以将其作为链接转储到屏幕上。

4

3 回答 3

7

Datastore 无法在单个查询中为您执行此操作。数据存储请求始终从索引返回连续的结果块,并且索引始终由给定类型的所有实体组成,并根据指定的顺序进行排序。查询无法仅仅因为一个字段具有重复值而跳过项目。

一种选择是重组数据。例如引入表示“区域”的新实体类型。添加教程时,如果不存在相应的“区域”,则创建相应的“区域”,如果没有教程保留在相同的“区域”中,则删除教程时删除相应的“区域”。如果每个区域都存储了该区域中的教程计数,这可能不会太繁重(尽管使事物与事务等保持一致实际上是相当繁琐的)。我希望实体的键可以基于区域字符串本身,这意味着您始终可以进行键查找而不是查询来获取区域实体。

另一种选择是使用排队任务或 cron 作业定期创建所有区域的列表,如果需要,将其累积到多个请求中,并将结果放入数据存储或内存缓存中。这当然意味着区域列表有时可能会暂时过时(或者如果不断变化,它可能永远不会完全过时),这可能会或可能不会被您接受。

最后,如果与教程相比,区域可能很少,您可以通过请求第一个教程(按区域排序),然后请求面积大于第一个区域的第一个教程,以及很快。但这需要每个不同区域一个请求,因此不太可能很快。

于 2009-07-25T21:42:23.390 回答
1

DISTINCT 关键字已在 1.7.4 版中引入。

于 2013-06-04T23:38:41.120 回答
0

之前有人问过这个问题,结论是使用集合很好。

于 2009-07-25T21:41:14.657 回答