问题标签 [shingles]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - Elasticsearch 2.x - 返回带状疱疹列表
我有一个字段“searchtext”,我提供了一个子字段“shingle”,并使用 shingles 过滤器对该 searchtext 字段进行索引。
我需要获取为该字段创建的带状疱疹列表,以便我可以对该字段进行一些操作。当我检索“searchtext.shingle”字段时,它只包含原始文本。
这是否意味着我设置的带状疱疹分析仪不起作用,或者我需要以不同的方式获取带状疱疹列表?
solr - solr shingle 查询匹配关键字标记化字段
我正在使用 Solr 5.5,我有问题希望在这里找到解决方案。
我有一个使用以下设置创建的字段:
该字段的值可以是:“Justin Bieber”
我的期望如下:
对于“艺术家贾斯汀·比伯是青少年万人迷”的查询,我希望它与此文档相匹配。像“一位名叫 Bieber Justin 的艺术家是加拿大人”或“Justin 这个名字很常见”这样的查询不应该找到匹配项。
我看到当我发出查询“Justin Bieber”时使用默认的“/select”请求处理程序找不到匹配项,即使它是完全匹配的。但是一个不同的字段被设置为'/select' RH 的默认字段,所以,我尝试使用以下 curl 创建另一个 RH:
它创建了我想要的 RH,但我的查询仍然与所需的文档不匹配。
请提出解决此问题的方法。
下面是查询响应的“调试”部分的片段:“/exactName?q=exactName_noAlias_en_US:Justin%20Bieber&wt=json&indent=true&debug=true”
以下是查询响应的“调试”部分的片段:“/select?q=exactName_noAlias_en_US:Justin%20Bieber&wt=json&indent=true&debug=true”
下面是使用 /select RH 的短语查询响应的“调试”部分的片段:“/select?q=exactName_noAlias_en_US:"Justin%20Bieber"&wt=json&indent=true&debug=true
以下是使用 /exactName RH 的短语查询响应的“调试”部分的片段:“/exactName?q=exactName_noAlias_en_US:"Justin%20Bieber"&wt=json&indent=true&debug=true
以下是查询和相应的调试部分,查询中的空格已转义:
调试:
elasticsearch - ElasticSearch:shingles - 如果字段包含确切的 shingle 令牌,则匹配短语
我是弹性搜索的新手,在以下情况下遇到问题:
- 假设我有 2 个文档,其中仅包含一个字段“文本”
- “文本”:“令牌 1 令牌 4”
- “文本”:“令牌 2 令牌 3”
- “文本”:“令牌 4 令牌 5”
- 通过以下查询文本“token1 token2 token3 token4 token5”,我只想找到文档 2 和 3
我需要类似于 shingles 过滤器的东西,它将从查询中创建以下标记:
[“token1 token2”,“token2 token3”,“token3 token4”,“token4 token5”]
并且将通过这些标记进行精确匹配,因此标记“token2 token3”和“token4 token5”将匹配文档
提前致谢!
python - 从 Pandas 柱到瓦片的最快方法
我需要以最快的方式从数据框中拼接字符串,然后创建一个主列表。
给定以下数据框:
我想生成一个列表带瓦的字符串(长度为 3),如下所示:(包括所有可能的 3 字母组合。)
...以及所有唯一值的主列表,如下所示:
我可以这样做,但我怀疑有一种更快的方法:
提前致谢!
python - 比较数组的最快方法
从这个问题延伸,我需要最快的解决方案:
鉴于以下情况:
我想编辑这些对象(或生成的新对象),以便对于列表 m 中的每个元素,如果它在 r 的所有列表中存在少于 2 次,则从 m 以及它出现的任何位置删除该元素河。
所以上面的结果应该是这样的:
...因为 'cde' 在 r 中只找到一次。
更好的是:
...或 m 中元素在 r 中的列表中的频率计数。然后,根据数字,如果值符合特定标准,我可以根据输出的索引编辑 r 中的列表。
例如,如果 i <2 或 >100,则删除 r 中每个列表的索引 i。
有一个迂回的方法可以做到这一点,但它比一月份的糖蜜要慢:
我的出发点是:
会产生这个:
提前致谢!
solr - solr 中的自定义 ShingleFilter
我的要求是有一个令牌过滤器,它可以产生如下令牌 -
文本- “Quick brown fox jump”
标记:
“Quick”
“Quick brown”
“Quick brown fox”
“Quick brown fox jump”
如果我使用SingleFilter
,那么我会得到额外的令牌,例如 -
"brown fox"
"fox jump"
我不想要的。有没有现成的方法来实现它。任何帮助将不胜感激
solr - solr shingleFilterFactory 不工作
最近我从 solr 4 迁移到 6。
在 solr 4shinglefilterfactory
中工作正常,我的配置是
但是在更新到 solr 6 shingles 后无法正常工作,架构如下,
尽管在“分析”选项卡中显示了正确的 shingle 结果,但是在 queryParser 中使用时却没有给出正确的结果
我的样本命中是
它将解析的查询创建为:
elasticsearch - Elasticsearch:通过在带状疱疹之间跳过单词来搜索文本
当我搜索文本“submarine sinks ship”时,我希望搜索排名优先匹配“submarine ship”。但是在我的 2 号带状疱疹索引中,文本将被索引为 {'submarine sinks', 'sinks ship'} 但不会将第一个和第三个字母{'submarine ship'} 索引为一个二元组,最终将给出排名到现有的二元组。在这种情况下如何使搜索工作?
java - 比较带状疱疹的近重复检测
我正在研究堆砌代码以比较接近重复的内容。我有点卡在比较代码上。这是我迄今为止的粗略尝试。
如果我应该在一个数组中比较这些带状疱疹 1-1,或者我是否应该将一个带状疱疹与循环中的所有带状疱疹进行比较,我有点卡住了。
例如,如果我循环比较每个带状疱疹和其他带状疱疹,那么这些文件将是相同的......
如果我对同一个文档进行位置比较,那么位置 1 将是“blah blah blah”与“Once on a”相比,这将返回 false。
我认为循环会更加密集,但它可能是正确的选择。想法?
r - 在 equal.count 函数之后根据属性变量堆叠条形图
我有三个变量;员工、PM 和站点在我的表站点审查中。将数据导入 R。
equal.count
使用函数 from将数据分类为 6 个相等的区间library(lattice)
。
绘制它以获得下表。
但是,我希望这些条形图根据站点进行堆叠。类似于下面的图片。无论如何要将属性变量(站点)包含到这些栏中。