5

我正在使用带有官方 python 驱动程序的 Rethinkdb 1.10.1。我有一个与一个用户关联的标记事物表:

{
    "id": "PK",
    "user_id": "USER_PK",
    "tags": ["list", "of", "strings"],
    // Other fields...
}

我想通过user_idand查询tag(例如,通过用户“tawmas”查找所有带有标签“tag”的东西)。从 Rethinkdb 1.10 开始,我可以像这样创建一个多索引:

r.table('things').index_create('tags', multi=True).run(conn)

我的查询将是:

res = (r.table('things')
       .get_all('TAG', index='tags')
       .filter(r.row['user_id'] == 'USER_PK').run(conn))

但是,这个查询仍然需要扫描所有带有给定标签的文档,所以我想创建一个基于 user_id 和 tags 字段的复合索引。这样的索引将允许我查询:

res = r.table('things').get_all(['USER_PK', 'TAG'], index='user_tags').run(conn)

文档中没有关于复合多索引的内容。但是,我尝试使用自定义索引函数,通过返回对列表来结合复合索引和多索引的要求["USER_PK", "tag"]

我的第一次尝试是在 python 中:

r.table('things').index_create(
    'user_tags',
    lambda each: [[each['user_id'], tag] for tag in each['tags']],
    multi=True).run(conn)

这使得 python 驱动程序因MemoryError试图解析索引函数而窒息(我猜驱动程序并不真正支持列表推导)。

所以,我转向我的(诚然,生锈的)javascript并想出了这个:

r.table('things').index_create(
    'user_tags',
    r.js(
        """(function (each) {
            var result = [];
            var user_id = each["user_id"];
            var tags = each["tags"];
            for (var i = 0; i < tags.length; i++) {
                result.push([user_id, tags[i]]);
            }
            return result;
        })
        """),
    multi=True).run(conn)

这被服务器拒绝了一个奇怪的例外:rethinkdb.errors.RqlRuntimeError: Could not prove function deterministic. Index functions must be deterministic.

那么,定义复合多索引的正确方法是什么?还是目前不支持的东西?

4

1 回答 1

7

简短的回答:

列表推导在 ReQL 函数中不起作用。您需要map像这样使用:

r.table('things').index_create(
    'user_tags',
    lambda each: each["tags"].map(lambda tag: [each['user_id'], tag]),
    multi=True).run(conn)

长答案

这实际上是 RethinkDB 驱动程序工作方式的一个微妙方面。所以这不起作用的原因是你的python代码实际上并没有看到每个文档的真实副本。所以在表达式中:

lambda each: [[each['user_id'], tag] for tag in each['tags']]

each从未绑定到数据库中的实际文档,它绑定到表示文档的特殊 python 变量。我实际上会尝试运行以下命令来演示它:

q = r.table('things').index_create(
       'user_tags',
       lambda each: print(each)) #only works in python 3

它会打印出如下内容:

<RqlQuery instance: var_1 >

驱动程序只知道这是来自函数的变量,特别是它不知道each["tags"]是数组还是什么(它实际上只是另一个非常相似的抽象对象)。所以 python 不知道如何遍历该字段。javascript中基本上存在完全相同的问题。

于 2013-11-15T18:04:36.527 回答