python - Redisearch聚合返回每组前5名

Question

假设我有这种格式的文档：

product_name TEXT tags TAG score NUMERIC 

[product1, [tag1, tag2, tag3], 10]
[product2, [tag2, tag3, tag4], 100]
....

我想要一个查询以产品得分的最高总和以及每个标签的前 5 个产品的顺序返回标签：

[tag3, 110, [product2, product 1]]
[tag2, 110, [product2, product 1]]
[tag4, 100, [product2]]
[tag1, 10, [product 1]]

到目前为止，我所拥有的是分别存储每个产品/标签密钥（对每个标签重复），因此对于每个产品，我们为每个标签都有一个单独的文档，id 是产品名称和标签的组合：product_name TEXT tag TAG score NUMERIC。现在我可以运行一个聚合查询来获取顶部标签的列表：

FT.AGGREGATE product_tags * 
   GROUP BY 1 @TAG 
     REDUCE SUM 1 @score as total_score
   SORT BY 2 @total_score DESC

这将按顺序为我提供顶级标签，但如果我想为每个标签获得前 5 个产品，我发现只有REDUCE TOLIST 1 @product_name哪个会返回所有未排序的产品，而REDUCE FIRST_VALUE 4 @product_name BY @score DESC只有哪个会返回第一个顶级产品。

有什么方法可以让我们在一个查询中为每个标签获取 5 个顶级产品。如果不是，是否可以更改文档存储格式（或添加其他格式）以使这种查询成为可能或尽可能少地查询？

没关系，但我使用的是 python Redisearch 客户端。

score 3 · Accepted Answer

第一的：

确保禁用您不会使用的功能 ( NOOFFSETS, NOHL, NOFREQS, STOPWORDS 0)
用于SORTABLE您的NUMERIC score.

这是我用来测试的架构：

FT.CREATE product_tags NOOFFSETS NOHL NOFREQS STOPWORDS 0
    SCHEMA product_name TEXT tags TAG score NUMERIC SORTABLE

您想将其FT.AGGREGATE视为管道。

第一步是按@score 对产品进行排序，以便稍后在管道中，当 we 时REDUCE TOLIST 1 @product_name，列表已排序：

SORTBY 2 @score DESC

我认为您已经在LOAD/APPLY处理标签，TAG否则字段将按每个产品的完整逗号分隔字符串标签列表分组。请参阅允许 GROUPBY 处理标签字段问题。所以我们的下一步是：

LOAD 1 @tags 
APPLY split(@tags) as TAG

然后我们按@TAG 分组，并应用这两个缩减。我们的产品列表将整理出来。

GROUPBY 1 @TAG
    REDUCE SUM 1 @score AS total_score
    REDUCE TOLIST 1 @product_name AS products

最后，我们排序@total_score：

SORTBY 2 @total_score DESC

这是命令的最终视图：

FT.AGGREGATE product_tags *
    SORTBY 2 @score DESC 
    LOAD 1 @tags 
    APPLY split(@tags) as TAG
    GROUPBY 1 @TAG
        REDUCE SUM 1 @score AS total_score 
        REDUCE TOLIST 1 @product_name AS products
    SORTBY 2 @total_score DESC

这里有一个完整的命令列表来说明结果。我使用productXX了 scoreXX来轻松地直观地验证产品的分类。

> FT.CREATE product_tags NOOFFSETS NOHL NOFREQS STOPWORDS 0 SCHEMA product_name TEXT tags TAG score NUMERIC SORTABLE
OK
> FT.ADD product_tags pt:product10 1 FIELDS product_name product10 tags tag2,tag3,tag4 score 10
OK
> FT.ADD product_tags pt:product1 1 FIELDS product_name product1  tags tag1,tag2,tag3 score 1
OK
> FT.ADD product_tags pt:product100 1 FIELDS product_name product100 tags tag2,tag3 score 100
OK
> FT.ADD product_tags pt:product5 1 FIELDS product_name product5 tags tag1,tag4 score 5
OK
> FT.SEARCH product_tags *
1) (integer) 4
2) "pt:product5"
3) 1) "product_name"
   2) "product5"
   3) "tags"
   4) "tag1,tag4"
   5) "score"
   6) "5"
4) "pt:product100"
5) 1) "product_name"
   2) "product100"
   3) "tags"
   4) "tag2,tag3"
   5) "score"
   6) "100"
6) "pt:product1"
7) 1) "product_name"
   2) "product1"
   3) "tags"
   4) "tag1,tag2,tag3"
   5) "score"
   6) "1"
8) "pt:product10"
9) 1) "product_name"
   2) "product10"
   3) "tags"
   4) "tag2,tag3,tag4"
   5) "score"
   6) "10"
> FT.AGGREGATE product_tags * SORTBY 2 @score DESC LOAD 1 @tags APPLY split(@tags) as TAG GROUPBY 1 @TAG REDUCE SUM 1 @score AS total_score REDUCE TOLIST 1 @product_name AS products SORTBY 2 @total_score DESC
1) (integer) 4
2) 1) "TAG"
   2) "tag2"
   3) "total_score"
   4) "111"
   5) "products"
   6) 1) "product100"
      2) "product10"
      3) "product1"
3) 1) "TAG"
   2) "tag3"
   3) "total_score"
   4) "111"
   5) "products"
   6) 1) "product100"
      2) "product10"
      3) "product1"
4) 1) "TAG"
   2) "tag4"
   3) "total_score"
   4) "15"
   5) "products"
   6) 1) "product10"
      2) "product5"
5) 1) "TAG"
   2) "tag1"
   3) "total_score"
   4) "6"
   5) "products"
   6) 1) "product5"
      2) "product1"

您正在获得排序的完整产品列表，而不仅仅是前 5 名。复杂性方面没有区别，我们付出了代价。影响在于缓冲、网络有效负载和您的客户端。

您可以使用 Lua 脚本限制前 5 名：

eval "local arr = redis.call('FT.AGGREGATE', KEYS[1], '*', 'SORTBY', '2', '@score', 'DESC', 'LOAD', '1', '@tags', 'APPLY', 'split(@tags)', 'as', 'TAG', 'GROUPBY', '1', '@TAG', 'REDUCE', 'SUM', '1', '@score', 'AS', 'total_score', 'REDUCE', 'TOLIST', '1', '@product_name', 'AS', 'products', 'SORTBY', '2', '@total_score', 'DESC') \n for i=2,(arr[1]+1) do \n arr[i][6] = {unpack(arr[i][6], 1, ARGV[1])} \n end \n return arr" 1 product_tags 5

这是上面 Lua 脚本的友好视图：

local arr = redis.call('FT.AGGREGATE', KEYS[1], ..., 'DESC')
for i=2,(arr[1]+1) do 
    arr[i][6] = {unpack(arr[i][6], 1, ARGV[1])}
end
return arr

我们正在传递一个键（索引）和一个参数（顶级产品的限制，在您的情况下为 5）1 product_tags 3：。

有了这个，我们将影响限制为仅缓冲、保存网络有效负载和客户端上的负载。

python - Redisearch聚合返回每组前5名

1 回答 1

Related

Reference