“shingles”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

354 浏览

c# - Elasticsearch 2.x - 返回带状疱疹列表

我有一个字段“searchtext”，我提供了一个子字段“shingle”，并使用 shingles 过滤器对该 searchtext 字段进行索引。

我需要获取为该字段创建的带状疱疹列表，以便我可以对该字段进行一些操作。当我检索“searchtext.shingle”字段时，它只包含原始文本。

这是否意味着我设置的带状疱疹分析仪不起作用，或者我需要以不同的方式获取带状疱疹列表？

c#elasticsearch nest shingles

2016-08-02T13:56:17.927

0 投票

2 回答

541 浏览

solr - solr shingle 查询匹配关键字标记化字段

我正在使用 Solr 5.5，我有问题希望在这里找到解决方案。

我有一个使用以下设置创建的字段：

该字段的值可以是：“Justin Bieber”

我的期望如下：

对于“艺术家贾斯汀·比伯是青少年万人迷”的查询，我希望它与此文档相匹配。像“一位名叫 Bieber Justin 的艺术家是加拿大人”或“Justin 这个名字很常见”这样的查询不应该找到匹配项。

我看到当我发出查询“Justin Bieber”时使用默认的“/select”请求处理程序找不到匹配项，即使它是完全匹配的。但是一个不同的字段被设置为'/select' RH 的默认字段，所以，我尝试使用以下 curl 创建另一个 RH：

它创建了我想要的 RH，但我的查询仍然与所需的文档不匹配。

请提出解决此问题的方法。

这是分析屏幕的屏幕截图。

下面是查询响应的“调试”部分的片段：“/exactName?q=exactName_noAlias_en_US:Justin%20Bieber&wt=json&indent=true&debug=true”

以下是查询响应的“调试”部分的片段：“/select?q=exactName_noAlias_en_US:Justin%20Bieber&wt=json&indent=true&debug=true”

下面是使用 /select RH 的短语查询响应的“调试”部分的片段：“/select?q=exactName_noAlias_en_US:"Justin%20Bieber"&wt=json&indent=true&debug=true

以下是使用 /exactName RH 的短语查询响应的“调试”部分的片段：“/exactName?q=exactName_noAlias_en_US:"Justin%20Bieber"&wt=json&indent=true&debug=true

以下是查询和相应的调试部分，查询中的空格已转义：

调试：

solr tokenize exact-match shingles

2016-09-08T20:04:04.800

0 投票

1 回答

1297 浏览

elasticsearch - ElasticSearch：shingles - 如果字段包含确切的 shingle 令牌，则匹配短语

我是弹性搜索的新手，在以下情况下遇到问题：

假设我有 2 个文档，其中仅包含一个字段“文本”
1. “文本”：“令牌 1 令牌 4”
2. “文本”：“令牌 2 令牌 3”
3. “文本”：“令牌 4 令牌 5”
通过以下查询文本“token1 token2 token3 token4 token5”，我只想找到文档 2 和 3

我需要类似于 shingles 过滤器的东西，它将从查询中创建以下标记：

[“token1 token2”，“token2 token3”，“token3 token4”，“token4 token5”]

并且将通过这些标记进行精确匹配，因此标记“token2 token3”和“token4 token5”将匹配文档

提前致谢！

elasticsearch full-text-search shingles

2016-10-20T04:49:16.740

0 投票

2 回答

474 浏览

python - 从 Pandas 柱到瓦片的最快方法

我需要以最快的方式从数据框中拼接字符串，然后创建一个主列表。

给定以下数据框：

我想生成一个列表带瓦的字符串（长度为 3），如下所示：（包括所有可能的 3 字母组合。）

...以及所有唯一值的主列表，如下所示：

我可以这样做，但我怀疑有一种更快的方法：

提前致谢！

python pandas dataframe shingles

2016-11-17T22:52:56.043

0 投票

1 回答

67 浏览

python - 比较数组的最快方法

从这个问题延伸，我需要最快的解决方案：

鉴于以下情况：

我想编辑这些对象（或生成的新对象），以便对于列表 m 中的每个元素，如果它在 r 的所有列表中存在少于 2 次，则从 m 以及它出现的任何位置删除该元素河。

所以上面的结果应该是这样的：

...因为 'cde' 在 r 中只找到一次。

更好的是：

...或 m 中元素在 r 中的列表中的频率计数。然后，根据数字，如果值符合特定标准，我可以根据输出的索引编辑 r 中的列表。

例如，如果 i <2 或 >100，则删除 r 中每个列表的索引 i。

有一个迂回的方法可以做到这一点，但它比一月份的糖蜜要慢：

我的出发点是：

会产生这个：

提前致谢！

python arrays list shingles

2016-11-17T23:46:02.707

0 投票

1 回答

201 浏览

solr - solr 中的自定义 ShingleFilter

我的要求是有一个令牌过滤器，它可以产生如下令牌 -

文本- “Quick brown fox jump”
标记：
“Quick”
“Quick brown”
“Quick brown fox”
“Quick brown fox jump”

如果我使用SingleFilter，那么我会得到额外的令牌，例如 - "brown fox" "fox jump" 我不想要的。有没有现成的方法来实现它。任何帮助将不胜感激

solr shingles

2016-12-01T13:18:34.160

0 投票

0 回答

180 浏览

solr - solr shingleFilterFactory 不工作

最近我从 solr 4 迁移到 6。

在 solr 4shinglefilterfactory 中工作正常，我的配置是

但是在更新到 solr 6 shingles 后无法正常工作，架构如下，

尽管在“分析”选项卡中显示了正确的 shingle 结果，但是在 queryParser 中使用时却没有给出正确的结果

我的样本命中是

它将解析的查询创建为：

solr solr6 shingles

2017-03-16T12:16:03.373

0 投票

0 回答

41 浏览

elasticsearch - Elasticsearch：通过在带状疱疹之间跳过单词来搜索文本

当我搜索文本“submarine sinks ship”时，我希望搜索排名优先匹配“submarine ship”。但是在我的 2 号带状疱疹索引中，文本将被索引为 {'submarine sinks', 'sinks ship'} 但不会将第一个和第三个字母{'submarine ship'} 索引为一个二元组，最终将给出排名到现有的二元组。在这种情况下如何使搜索工作？

elasticsearch elasticsearch-5 shingles

2018-04-27T21:57:07.280

0 投票

1 回答

294 浏览

java - 比较带状疱疹的近重复检测

我正在研究堆砌代码以比较接近重复的内容。我有点卡在比较代码上。这是我迄今为止的粗略尝试。

如果我应该在一个数组中比较这些带状疱疹 1-1，或者我是否应该将一个带状疱疹与循环中的所有带状疱疹进行比较，我有点卡住了。

例如，如果我循环比较每个带状疱疹和其他带状疱疹，那么这些文件将是相同的......

如果我对同一个文档进行位置比较，那么位置 1 将是“blah blah blah”与“Once on a”相比，这将返回 false。

我认为循环会更加密集，但它可能是正确的选择。想法？

java duplicates bigdata data-mining shingles

2018-07-27T19:04:10.150

0 投票

0 回答

26 浏览

r - 在 equal.count 函数之后根据属性变量堆叠条形图

我有三个变量；员工、PM 和站点在我的表站点审查中。将数据导入 R。

样本数据图片

equal.count使用函数 from将数据分类为 6 个相等的区间library(lattice)。

绘制它以获得下表。

基于区间的 PM 分布

但是，我希望这些条形图根据站点进行堆叠。类似于下面的图片。无论如何要将属性变量（站点）包含到这些栏中。

寻找类似这样的酒吧

r lattice shingles

2018-09-25T08:20:11.957

问题标签 [shingles]

Reference