问题标签 [significant-terms]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1537 浏览

elasticsearch - Elasticsearch 重要术语聚合

我已经开始使用重要术语聚合来查看与我索引的整个文档集相比,哪些关键字在文档组中是重要的。

在很多文档被索引之前,它都很好用。然后对于曾经有效的相同查询,elasticsearch 只说:

我的查询如下所示:

以及文件结构:

我索引的数据是科学论文的段落。没有文件真的很大。

关于如何分析或解决问题的任何想法?

0 投票
1 回答
202 浏览

elasticsearch - Different set of results for "significant terms" in Elasticsearch using REST Api or Transportclient

We use the new significant terms plugin in elasticsearch. Using the transport client I get less results compared to that when I use the REST API. I don't understand why. Using the node client is unfortunately not possible, since my service using ES is not in the same network. Why are the results different?

Here is the REST call:

#xA;

and here the scala request building code:

#xA;
0 投票
0 回答
119 浏览

elasticsearch - Elasticsearch 重要术语最小值

我有这样的事情:

我想说重要的术语给我更多的结果。即使 doc_count 说 400,它有时也只给出 10。如果我将 "min_doc_count": 10 添加到重要术语中,它只会做奇怪的事情。有些键不会给我任何结果,有些只是 3 或 4?那么我该怎么做呢?

谢谢!

0 投票
3 回答
504 浏览

elasticsearch - “扁平”结构的重要术语聚合

我目前尝试使用 Elasticsearch 重要术语聚合来构建产品推荐系统的原型。到目前为止,我还没有找到一个很好的例子来处理来自关系数据库的“平面”JSON结构sales(这里:The itemId),比如我的:

文件 1

文件 2

我的 Elasticsearch 索引中有大约 150 万份此类文档。AlineItem是 a 的一部分sale(由 标识itemId),它可以由 1 个或多个组成lineItems我想收到的是,比如说,在销售一个特定的productId.

MovieLens 示例 ( https://www.elastic.co/guide/en/elasticsearch/guide/current/_significant_terms_demo.html ) 处理结构中的数据

所以不幸的是,它对我来说并不是很有用。对于使用我的“扁平”结构的示例或建议,我将非常高兴。提前非常感谢。

0 投票
2 回答
472 浏览

elasticsearch - Elasticsearch 关于嵌套对象的重要术语

对于我的硕士论文,我使用 Elasticsearch 来衡量句子、段落和文档对索引其余部分的重要性。我使用了 3 个不同的索引来实现快速查询。一切正常,但我想评估是否可以对嵌套对象或父子关系做同样的事情。

在这里,我尝试使用嵌套对象设置和查询重要术语:

和2个测试文件:

不幸的是,我没有得到以下查询的任何重要术语:

0 投票
2 回答
634 浏览

elasticsearch - 要求重要条款但没有回报

我在使用 Elasticsearch(2.0 版)时遇到问题,我试图从一堆文档中获取重要的术语,但它总是什么都不返回。

这是我的索引的架构:

因此,它是一个简单的索引,其中包含text不分析的字段,以及一个entities包含单个字段的字典的数组:text也不分析。

我想要做的是匹配一些文档并从关联的实体中提取最重要的术语。为此,我使用通配符,然后使用聚合。

这是我发送的请求curl

不幸的是,即使 Elasticsearch 正在访问某些文档,重要术语聚合的存储桶始终是空的。

我试着把analyzed而不是not_analyzed也,但我得到了同样的空结果。

那么首先,这样做是否相关?

我是 Elasticsearch 的初学者,所以,你能解释一下重要的术语聚合是如何工作的吗?

最后,如果相关,为什么我的查询不起作用?

编辑:我刚刚在 Elasticsearch 文档中看到,重要的术语聚合需要一定数量的数据才能生效,而我的索引中只有 163 个文档。会不会是这样?

0 投票
3 回答
34902 浏览

elasticsearch - ElasticSearch circuit_breaking_exception(数据太大)与显着_terms 聚合

查询:

错误:

索引大小为 5G。集群需要多少内存来执行这个查询?

0 投票
2 回答
460 浏览

sql - 高效计算 SQL 中的重要术语

不久前我被介绍到 ElasticSearch重要术语聚合,并且对这个指标的好和相关性感到非常惊讶。对于那些不熟悉它的人来说,这是一个非常简单的概念——对于给定的查询(前景集),给定的属性会根据背景集的统计显着性进行评分。

例如,如果我们要查询英国交通警察中最重要的犯罪类型:

通常,自行车盗窃仅占犯罪的 1% (66,799/5,064,554),但对于处理铁路和车站犯罪的英国交通警察来说,7% 的犯罪 (3,640/47,347) 是自行车盗窃。这是频率显着增加的七倍。

“自行车盗窃”的意义将是[(I/S) - (T/C)] * [(I/S) / (T/C)] = 0.371...

在哪里:

  • C是集合中所有文档的数量
  • S是匹配查询的文档数
  • T是具有特定术语的文档数
  • I是同时与ST相交的文档数

出于实际原因(我拥有的大量数据和巨大的 ElasticSearch 内存需求),我希望在 SQL 中或直接在代码中实现重要的术语聚合。

我一直在寻找一些可能优化这种查询的方法,特别是降低内存需求并提高查询速度,但代价是一些误差范围 - 但到目前为止我还没有破解它。在我看来,这:

  • 变量CS很容易缓存或查询。
  • 变量T可以从Count-Min Sketch导出,而不是查询数据库。
  • 然而,变量I似乎不可能从T的 Count-Min Sketch 推导出来。

我也在看MinHash,但从描述来看,它似乎不能在这里应用。

有谁知道一些有助于解决这个问题的聪明算法或数据结构?

0 投票
0 回答
348 浏览

elasticsearch - ElasticSearch 重要术语聚合:搜索词的 doc_count 和 bg_c​​ount 不相等

我不确定我的查询、我的文档结构或我对doc_countandbg_count字段的解释是否有问题。

当运行重要的术语聚合并按分数对结果进行排序时,可以理解的是,搜索术语始终位于该列表的首位。但是,我希望doc_countandbg_count将匹配搜索词,因为我理解 是doc_count与键和过滤器词匹配的文档数,而背景计数是与过滤器词匹配的文档数. 因此,在申报人术语是关键的情况下,doc_count并且bg_count将是相等的。

相反,我通常看到doc_count低于bg_count并且分数(显着)小于 1。

举个例子:

对于这些查询,我没有使用背景过滤器。这是在 ElasticSearch 2.3.2 上(不要判断,升级到 6.x 正在进行中)。

这是预期的吗?

0 投票
0 回答
492 浏览

scala - 将 Elasticsearch 重要项聚合与 SparkSQL 结合使用

我正在使用以下代码在 Spark 数据帧和 Elasticsearch 之间写入/读取数据:

我想检索对我的数据的重要条款请求的结果,但我找不到任何关于如何使用 Spark 实现此目的的示例。

我想做的 DSL 请求:

有没有办法只使用 org.elasticsearch.spark.sql 库来实现这一点?

编辑 :

我尝试通过以下方式解决问题:

但是我在结果中得到的数据框只是存储桶请求的结果。我仍在寻找如何获得每个 [FIELD NAME] 的“显着分数”