问题标签 [term-vectors]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
182 浏览

elasticsearch - Elasticsearch:JSON获取特定术语的频率

我认为这是一个简单的应用程序,但我在互联网上找不到食谱。

您能否建议一个JSON查询发送python到 Elasticsearch 实例,该实例将返回特定字段中特定术语的频率?

我想这应该可以通过对 Term Vector API 的一些调整来实现,但这似乎并不简单。

我不介意同时获得绝对频率和包含该术语的文档数量。

0 投票
0 回答
276 浏览

python - Elasticsearch mtermvectors python API查询

我目前正在研究 Elasticsearch,索引中有大量文档(大约 500K)。我想将每个文档的文本数据的 n-gram 存储在另一个索引中(这也很大〜每个文档包含 2 页文本数据)。因此,我计算每个文档中的术语向量及其计数,以将它们存储在新索引中。所以我可以对新索引执行聚合查询。

旧索引的设置使我能够执行termvectormtermvector API。我不想在短时间内向 Elasticsearch 服务器发送太多请求,所以我将使用 mtermvectors python API。我试图通过传递 25 个文档的 id 来获取 25 个文档的术语向量。

在 python 中调用 mtermvector API 后的 HTTP URL 示例

有时我会得到预期的响应,但大多数时候我会收到以下错误:

索引设置和映射

我认为此设置和映射没有任何问题,因为有时我会得到预期的响应。

如果您需要我方面的更多信息,请告诉我。任何帮助将不胜感激。

0 投票
1 回答
136 浏览

elasticsearch - Elasticsearch Term Vector API 的字段统计含义

在弹性搜索文档中,在 Term Vectors API 下

我不明白这部分。

我一直在尝试,但无论我多么努力地检查,我都不知道这些字段代表什么。

据我了解,文档计数是包含该字段的文档数(例如字段 = 名称),总术语频率的总和是该字段中所有术语的总术语计数,但我没有准确地得到这些字段。

检查我的主索引,我有一个特定的字段(title.keyword)。我假设当我设置 /index_sample/_termvectors/1?fields=title.keyword 时,我应该得到具有该字段的文档总数(doc_count = 45,000),但它返回的计数比我除了(doc_count = 17,000)。

谁能用一些简单的例子向我解释这一点?几乎没有关于此的第三方文档,这让我发疯。

谢谢!

0 投票
0 回答
178 浏览

java - 获取 Solr 中搜索词的偏移量和位置

在 solr 中搜索文本时,我试图在结果中获取搜索词的偏移量。例如:

作为回应,我想要:

目前我在代码中得到响应后手动计算。

我正在阅读术语向量(https://lucene.apache.org/solr/guide/7_2/the-term-vector-component.html),但我不确定。如果有人可以用任何有用的方法指导我。

0 投票
0 回答
19 浏览

elasticsearch - Elasticsearch 多个词条计数过滤器进入多个文档

我们使用 Elasticsearch 来搜索多个词并根据不同的过滤词过滤记录。

我们正在使用多个关键字来搜索和过滤记录,因此我需要一些其他详细信息以及结果以及基于结果计数的其他过滤选项。

以下是我们需要的附加过滤器:

结果应包含每个术语的出现计数。需要一个基于结果中术语出现计数的过滤器。我应该像-> 最小术语出现-> 最大术语出现这样我可以通过传递最小和最大搜索词(关键字)出现次数来过滤掉结果。例如搜索词(关键字):IT、项目管理这些是 2 个词。结果应包含每个结果文档中“IT”和“项目管理”的出现次数。然后过滤选项以及搜索查询以根据出现次数过滤掉结果。像这样:例如搜索词(关键字):IT、项目管理最小出现次数:3 最大出现次数:12

因此,结果应仅包含术语 IT 和项目管理发生次数大于 3 且小于 12 的文档。

在文档中,我没有通过根据搜索词或关键字的出现次数过滤掉结果来获得任何选项。

我还检查了“more_like_this”文档,但它似乎不适用于我的情况(或上述情况)。

请指导我或提供更多信息以处理此类案件。

提前致谢!