问题标签 [shingles]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
354 浏览

c# - Elasticsearch 2.x - 返回带状疱疹列表

我有一个字段“searchtext”,我提供了一个子字段“shingle”,并使用 shingles 过滤器对该 searchtext 字段进行索引。

我需要获取为该字段创建的带状疱疹列表,以便我可以对该字段进行一些操作。当我检索“searchtext.shingle”字段时,它只包含原始文本。

这是否意味着我设置的带状疱疹分析仪不起作用,或者我需要以不同的方式获取带状疱疹列表?

0 投票
2 回答
541 浏览

solr - solr shingle 查询匹配关键字标记化字段

我正在使用 Solr 5.5,我有问题希望在这里找到解决方案。

我有一个使用以下设置创建的字段:

该字段的值可以是:“Justin Bieber”

我的期望如下:

对于“艺术家贾斯汀·比伯是青少年万人迷”的查询,我希望它与此文档相匹配。像“一位名叫 Bieber Justin 的艺术家是加拿大人”或“Justin 这个名字很常见”这样的查询不应该找到匹配项。

我看到当我发出查询“Justin Bieber”时使用默认的“/select”请求处理程序找不到匹配项,即使它是完全匹配的。但是一个不同的字段被设置为'/select' RH 的默认字段,所以,我尝试使用以下 curl 创建另一个 RH:

它创建了我想要的 RH,但我的查询仍然与所需的文档不匹配。

请提出解决此问题的方法。

这是分析屏幕的屏幕截图。

下面是查询响应的“调试”部分的片段:“/exactName?q=exactName_noAlias_en_US:Justin%20Bieber&wt=json&indent=true&debug=true”

以下是查询响应的“调试”部分的片段:“/select?q=exactName_noAlias_en_US:Justin%20Bieber&wt=json&indent=true&debug=true”

下面是使用 /select RH 的短语查询响应的“调试”部分的片段:“/select?q=exactName_noAlias_en_US:"Justin%20Bieber"&wt=json&indent=true&debug=true

以下是使用 /exactName RH 的短语查询响应的“调试”部分的片段:“/exactName?q=exactName_noAlias_en_US:"Justin%20Bieber"&wt=json&indent=true&debug=true

以下是查询和相应的调试部分,查询中的空格已转义:

调试:

0 投票
1 回答
1297 浏览

elasticsearch - ElasticSearch:shingles - 如果字段包含确切的 shingle 令牌,则匹配短语

我是弹性搜索的新手,在以下情况下遇到问题:

  1. 假设我有 2 个文档,其中仅包含一个字段“文本”
    1. “文本”:“令牌 1 令牌 4”
    2. “文本”:“令牌 2 令牌 3”
    3. “文本”:“令牌 4 令牌 5”
  2. 通过以下查询文本“token1 token2 token3 token4 token5”,我只想找到文档 2 和 3

我需要类似于 shingles 过滤器的东西,它将从查询中创建以下标记:

[“token1 token2”,“token2 token3”,“token3 token4”,“token4 token5”]

并且将通过这些标记进行精确匹配,因此标记“token2 token3”和“token4 token5”将匹配文档

提前致谢!

0 投票
2 回答
474 浏览

python - 从 Pandas 柱到瓦片的最快方法

我需要以最快的方式从数据框中拼接字符串,然后创建一个主列表。

给定以下数据框:

我想生成一个列表带瓦的字符串(长度为 3),如下所示:(包括所有可能的 3 字母组合。)

...以及所有唯一值的主列表,如下所示:

我可以这样做,但我怀疑有一种更快的方法:

提前致谢!

0 投票
1 回答
67 浏览

python - 比较数组的最快方法

从这个问题延伸,我需要最快的解决方案:

鉴于以下情况:

我想编辑这些对象(或生成的新对象),以便对于列表 m 中的每个元素,如果它在 r 的所有列表中存在少于 2 次,则从 m 以及它出现的任何位置删除该元素河。

所以上面的结果应该是这样的:

...因为 'cde' 在 r 中只找到一次。

更好的是:

...或 m 中元素在 r 中的列表中的频率计数。然后,根据数字,如果值符合特定标准,我可以根据输出的索引编辑 r 中的列表。

例如,如果 i <2 或 >100,则删除 r 中每个列表的索引 i。

有一个迂回的方法可以做到这一点,但它比一月份的糖蜜要慢:

我的出发点是:

会产生这个:

提前致谢!

0 投票
1 回答
201 浏览

solr - solr 中的自定义 ShingleFilter

我的要求是有一个令牌过滤器,它可以产生如下令牌 -

文本- “Quick brown fox jump”
标记:
“Quick”
“Quick brown”
“Quick brown fox”
“Quick brown fox jump”

如果我使用SingleFilter,那么我会得到额外的令牌,例如 - "brown fox" "fox jump" 我不想要的。有没有现成的方法来实现它。任何帮助将不胜感激

0 投票
0 回答
180 浏览

solr - solr shingleFilterFactory 不工作

最近我从 solr 4 迁移到 6。

在 solr 4shinglefilterfactory 中工作正常,我的配置是

但是在更新到 solr 6 shingles 后无法正常工作,架构如下,

尽管在“分析”选项卡中显示了正确的 shingle 结果,但是在 queryParser 中使用时却没有给出正确的结果

我的样本命中是

它将解析的查询创建为:

0 投票
0 回答
41 浏览

elasticsearch - Elasticsearch:通过在带状疱疹之间跳过单词来搜索文本

当我搜索文本“submarine sinks ship”时,我希望搜索排名优先匹配“submarine ship”。但是在我的 2 号带状疱疹索引中,文本将被索引为 {'submarine sinks', 'sinks ship'} 但不会将第一个和第三个字母{'submarine ship'} 索引为一个二元组,最终将给出排名到现有的二元组。在这种情况下如何使搜索工作?

0 投票
1 回答
294 浏览

java - 比较带状疱疹的近重复检测

我正在研究堆砌代码以比较接近重复的内容。我有点卡在比较代码上。这是我迄今为止的粗略尝试。

如果我应该在一个数组中比较这些带状疱疹 1-1,或者我是否应该将一个带状疱疹与循环中的所有带状疱疹进行比较,我有点卡住了。

例如,如果我循环比较每个带状疱疹和其他带状疱疹,那么这些文件将是相同的......

如果我对同一个文档进行位置比较,那么位置 1 将是“blah blah blah”与“Once on a”相比,这将返回 false。

我认为循环会更加密集,但它可能是正确的选择。想法?

0 投票
0 回答
26 浏览

r - 在 equal.count 函数之后根据属性变量堆叠条形图

我有三个变量;员工、PM 和站点在我的表站点审查中。将数据导入 R。

样本数据图片

equal.count使用函数 from将数据分类为 6 个相等的区间library(lattice)

绘制它以获得下表。

基于区间的 PM 分布

但是,我希望这些条形图根据站点进行堆叠。类似于下面的图片。无论如何要将属性变量(站点)包含到这些栏中。

寻找类似这样的酒吧