问题标签 [shingles]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何将此 w-shingling 函数的输出更改为全部小写?
我正在尝试在 python 中创建一个函数,它返回给定瓦片宽度 w 的 w-shingling ,但希望 shingled 列表中的字符串都是小写字母。
我试过把 [c.lower() for c in inputFile] 和这类东西放在一起。
这是打印时的输出:
但我希望所有这些字母都是小写的。
elasticsearch - 弹性搜索中的 Shingle TokenFilter 错误
我在 Magento 2 安装中安装了微笑弹性套件模块,但出现此错误,
我正在使用 Magento 2.3.0 运行 MAMP 和弹性搜索 7.0.1
solr - Solr 查询返回短语而不使用 shingle 字段
我有一个 solr 索引,其中包含每个文档大约 1000 个单词的文本字段。
我想做一个只返回部分文本字段的查询或方面。
例如:
我想做一个查询,只返回“重要”搜索中的“重要问题”。
这是因为某些文本字段包含与重要一词的其他“耦合”,我也想获得它们。
我知道 shingle 的使用,但我不想在索引部分文本时“支付”磁盘成本。
java - 在Java中没有Scanner.class的k-shingles中的分隔文本
我正在尝试将 k-shingles 中的文本分开,遗憾的是我无法使用扫描仪。如果最后一个瓦太短,我想用“_”填充。我走了这么远:
它几乎可以工作,但是在示例中使用给定参数的情况下,最后一个瓦不是必需的(它应该是 [ddssgge, eezzfff]
任何想法如何做到这一点更漂亮?
elasticsearch - elasticsearch同义词和带状疱疹冲突
让我直接跳到代码。
输出
基本上,
假设我有以下 index_time 同义词
如果我搜索“大学”,我希望匹配“东京大学”,
但由于索引仅包含“东京大学”=> university_of_tokyo, u_tokyo .....搜索失败
我期待如果我使用分析器{'filter': ["single", "synonym"]}
如何获得所需的行为?
elasticsearch - 为什么带有分析器的 shingle 令牌过滤器没有产生预期的结果?
嗨,这是我的索引详细信息:
添加了 2 个文档
如果我这样做,则不会返回任何内容,
在网上看了所有可能的解决方案,没有得到任何解决方案。
此外,如果我执行“output_unigrams”:true,那么它就像匹配查询一样工作并给出结果。
我想要实现的目标:
拥有这些文件:
- Chandni Chowk 2班加罗尔
- Chandni Chowk
- CCD班加罗尔
- 伊斯塔沙瓦玛和印度比尔亚尼
- 伊斯塔
因此,搜索“Chandni Chowk 2 Bangalore”应该返回 1, 2
搜索“Chandni Chowk”应该返回 1, 2
搜索“Istah shawarma and biryani”应该返回 4、5
搜索“Istah”应该返回 4, 5
搜索“CCD Bangalore”应返回 3
注意:搜索关键字将始终与文档中 name 字段的值完全相同 例如:在此特定索引中,我们可以查询“Chandni Chowk 2 Bangalore”、“Chandni Chowk”、“CCD Bangalore”、“Istah shawarma and biryani” ”、“伊斯塔”。不会在该索引上查询“CCD”。
elasticsearch - 用于类似于拆分的带状疱疹的 Elasticsearch 处理器?
有没有可以做带状疱疹的处理器,或者我可以以某种方式定制一个?
在下面的管道处理器中,我拆分了空格字符,但我也想组合单词,比如 shingle 分析器会:
例子:
“高级业务开发人员”需要包含这些术语的建议字段。
- 高级业务开发人员
- 企业发展者
- 开发商
以下是启发这个问题的文章和答案的链接:
python - 我在 python 中运行这段代码,但我给出了一个错误,重复检测 LSH
我在 python 中为 minhash 和 shingle 运行此代码以检测重复的文本,但它给了我一个错误。用于绘图。我有一些错误。它说“float() 参数必须是字符串或数字,而不是 'dict_keys'”。我试图列出它,但它绘制错误。此外,字典的键和值是数字。
python - 在python中的文件夹中使用所有文本文件
我想在 python 中实现 LSH 作为大学练习。但首先,我必须使用 kshingle 库将文件夹中的所有文本文件组合在一起。我无法读取/循环文件,将它们组合起来并将它们写入数组。我试过这个,但我得到一个空数组:
solr - 如何在 Solr 中使用 boosting 进行部分短语匹配
我们应用了提升和短语提升,如下所示:
上面的查询在以下情况下工作正常:
用户输入:Solr 查询
用户输入:查询分析
但是,如果我们如下键入 3 个或更多术语,则不会带来如下所述的预期结果:
预期结果是首先完全匹配,然后是部分短语
用户输入:Solr 查询分析
预期结果按以下顺序:
Solr 查询分析是最佳实践
solr 查询有利于分析
solr中的查询分析很好
solr是搜索领域的关键参与者
查询您的要求
分析总是给出更好的结果
获得了一些有关可能适合此要求的 Shingle 过滤器的有用链接。
带状疱疹是否符合上述要求?如果是,请指导如何对带状疱疹应用增强或任何更好的方法来首先获得准确的短语,然后通过增强的部分短语?
请在这里指导。感谢你的帮助。