1

在弹性搜索文档中,在 Term Vectors API 下

Field statistics
Setting field_statistics to false (default is true) will omit :

document count (how many documents contain this field)
sum of document frequencies (the sum of document frequencies for all terms in this field)
sum of total term frequencies (the sum of total term frequencies of each term in this field)

我不明白这部分。

我一直在尝试,但无论我多么努力地检查,我都不知道这些字段代表什么。

据我了解,文档计数是包含该字段的文档数(例如字段 = 名称),总术语频率的总和是该字段中所有术语的总术语计数,但我没有准确地得到这些字段。

检查我的主索引,我有一个特定的字段(title.keyword)。我假设当我设置 /index_sample/_termvectors/1?fields=title.keyword 时,我应该得到具有该字段的文档总数(doc_count = 45,000),但它返回的计数比我除了(doc_count = 17,000)。

谁能用一些简单的例子向我解释这一点?几乎没有关于此的第三方文档,这让我发疯。

谢谢!

4

1 回答 1

0

AFAIK,术语向量 API 获取有关提供的文档的术语向量的信息。要获取索引级别信息(非常昂贵),请查看我的插件 - https://github.com/nirmalc/es-termstat或 jprante 的插件:https ://github.com/jprante/elasticsearch-index-termlist

于 2020-07-05T17:28:04.607 回答