问题标签 [term-vectors]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - Elasticsearch termvector API 不工作
我为testindex1
索引的文章类型设置了标题字段的映射,如下所示:
省略映射规范的其余部分。(这个例子和后面的例子假设 Marvel Sense 仪表板界面。) testindex1 然后填充文章,包括 ID 为 4540 的文章。
正如预期的那样,
生产
(标题文本已更改以保护无辜者。)
然而,
生产
我已经尝试了映射规范的变体,以及 termvector 请求的变体,但到目前为止无济于事。我还在官方和非官方文档以及涵盖 Elasticsearch 主题的论坛(包括 Stack Overflow)上寻找提示。elasticsearch.org看起来很权威。我希望我以一种对熟悉它的人来说立即显而易见的方式滥用了 termvector API。请指出我的错误。谢谢。
elasticsearch - Multi-word Term Vectors with Word nGrams?
I'm aiming to build an index that, for each document, will break it down by word ngrams (uni, bi, and tri), then capture term vector analysis on all of those word ngrams. Is that possible with Elasticsearch?
For instance, for a document field containing "The red car drives." I would be able to get the information:
Thanks in advance!
elasticsearch - 如何在弹性搜索中获取整个索引的术语向量信息?,而不是在文档级别
根据弹性搜索文档https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html,术语向量只能应用于文档。有什么办法可以在索引级别应用它。
我的用例是在应用英语停用词过滤器后,计算添加到索引的所有文档中存在的字段(类型:字符串,基本上是一个句子)中所有 uni、bi 和 trigrams 的频率。
谢谢。
elasticsearch - 存储术语向量时参数“存储”是强制性的吗?
我想存储一个领域的术语向量,但我有疑问。他们在文档中说:
将存储术语向量。但是术语向量只能通过某个端点访问:
而要存储的是字段text
。那么如果我想存储我的术语向量而不是字段呢text
?如果我不指定,它会存储术语向量"store":true
吗?我怎样才能确定我的术语向量是存储的而不是动态计算的?
c# - 在 ElasticSearch 5.5 中使用摄取插件时如何获取术语向量?
全部,
我有以下代码使用 elasticsearch 中的摄取插件索引文件
如您所见,我已在 Content 字段中将 termvector otpion 设置为 yes。但是当我使用邮递员或在 C# Nest 中进行如下查询时,我什么也得不到
任何想法我做错了什么?谢谢您的帮助!
elasticsearch - Elasticsearch:来自给定文档集的总词频和文档计数
我试图从给定的一组文档中获取总词频和文档计数,但是弹性搜索中的 _termvectors 从索引中的所有文档中返回 ttf 和 doc_count。有什么方法可以让我指定文档列表(文档 ID),以便结果仅基于这些文档。
以下是获取总词频的文档详细信息和查询:
索引详情:
文件详情:
它将创建三个 ID 为 1、2 和 3 的文档。现在假设 ID 为 1 和 2 的推文属于 user1,而 3 属于另一个用户,我想获取 user1 的术语向量。
查询以获得此结果:
回复:
在这里我们可以看到hello
有 doc_count 3 和 ttf 3。我怎样才能让它只考虑具有给定 ID 的文档。
我正在考虑的一种方法是为不同的用户创建不同的索引。但我不确定这种方法是否正确。通过这种方法,指数将随着用户的增加而增加。或者可以有其他解决方案吗?
elasticsearch - Elasticsearch:在插件中访问 TermVectorResponse 中的所有术语
我正在尝试从弹性搜索插件中的 termvectorresponse 获取术语列表。我想访问与条款相关的所有统计数据,并且无法弄清楚如何做到这一点。
发出 TermVectorsRequest 后...
并得到客户的回应...
我可以访问 id、索引等。在字段中我得到“内容”,这是我想要的字段名称。从那里虽然看起来我可以跑......
其中返回的条款对象可以访问我想要的统计信息。
不过,我对此有一些问题。一是只有“内容”似乎是非空的。在弹性的 termvectors 端点中,我得到了几个不同的术语,我在这里尝试插入这些术语。第二,我想获得一个术语列表,而不是输入我想要的术语。
我该怎么做呢?
谢谢
r - R中的术语列表/术语向量后标记
我有一个 .csv 文件,其中只有一列包含 1000 行。每行包含一个词(词袋模型)。现在我想找出每个单词是否是名词、动词、形容词等。我想要第二列(有 1000 行),每列包含属于列中单词的信息(名词或动词) 1.
我已经将 csv 导入到 R 中。但是我现在该怎么办?
[这里是一个例子。我有这些词,我想知道它是否是名词动词等] [
lucene - 获取字符串中找到的术语的 Lucene 术语向量
我正在尝试突出显示字符串中的术语。我的代码沿字符串搜索并在索引中查找等效项。代码返回找到的条款没问题。但是,我想将用户输入的原始字符串返回给用户,并突出显示找到的术语。我正在使用 Lucene 4,因为那是我用来学习 Lucene 的书。我有一个可怜的尝试来获取术语向量等,但它遍历整个领域,我不知道如何获得找到的术语。这是我的代码:
elasticsearch - 用于在 Elasticsearch 中突出显示的用户提供的术语向量
我想在搜索结果中使用 Elasticsearch 的突出显示功能,但我不能使用分析器插件。我们的(非常定制的)NLP 管道相当繁重(在 CPU 和内存中,并且在生产中它可能会与其他服务对话以进行字典解析)。
目前我们将纯文本文档转换为标记列表,因此The quick siberian fox jumps over the grizzly bear
变为{"text": "The quick siberian fox jumps over the grizzly bear", "tokens": ["quick", "siberian fox", "jump", "grizzly bear"]}
. 然后我们只需将上面的内容作为文档插入,其中包含 2 个字段text
和tokens
,并且我们将大部分搜索作为tokens
字段上的完全匹配进行。到目前为止,一切都很好。
现在我们正在考虑在原始文本中突出显示匹配项,因此如果用户搜索“jump”,我们希望返回The quick siberian fox [jumps] over the grizzly bear
。然而,据我所知,Elasticsearch 高亮引擎依赖于在索引时或查询时分析纯文本,以获取包含位置信息的术语向量。(这个对吗?)
因为我们不能为ES写一个分析器插件,所以不能依赖这个方法。但是,在纯文本字符串上运行 NLP 管道时,我们确实会生成位置信息,那么我们可以在索引时提供术语向量吗?我在ElasticSearch 中找到了用户定义的术语向量,但唯一的答案侧重于应用程序 (KNN),而不是手动插入术语向量的问题。
或者,我们可以使用不同的突出显示方式吗?我找到了https://www.elastic.co/blog/search-for-things-not-strings-with-the-annotated-text-plugin但我不确定如果我们只是索引东西会如何表现就像the [quick](quick) [siberian fox](siberian fox) [jumps](jump) over the [grizzly bear](grizzly bear)
几乎所有东西都会被注释一样。