问题标签 [phrase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - Lucene.net 中带有特殊字符的精确短语
我在 lucene.net 中进行全文搜索时遇到问题,其中搜索结果包含特殊的 lucene 字符。
我的 Lucene 文档中有一个名为“内容”的字段。该字段创建如下,包含索引文档的内容:
为了创建索引,我使用 Standardanalyzer。
为了查询索引,我使用以下代码:
然后将该查询添加到用于从 IndexSearcher 获取结果的 BooleanQuery。我认为其余的代码并不那么重要,因为对于 99% 的查询,代码的工作方式都应该如此。我还使用 StandardAnalyzer 来查询索引。
现在问题来了。有时,文档的“内容”字段包含使用“-”分隔的文本
一些文本 一些文本选择杆 一些文本 一些文本
现在,当我使用“选择杆”进行全文搜索(确切的短语)时。查询如下所示:
内容:“选档杆”
这里的问题是也找到了包含上述文本的文档,尽管它不应该被找到,因为这两个词是用“-”分隔的,而不是空白。
我认为这与分析器有关,并且“-”是 lucene 中的特殊字符。
也许有人可以帮我解决这个问题。
在此先感谢马丁
java - 如何在java中的文档中查找短语(多个标记字符串)的频率?
我想在文档中查找多标记字符串或短语的频率。它不是我正在寻找的单词/单项频率,它始终是多项,并且术语的数量是动态的......
例如:在文档中搜索“与朋友交流”的频率!
任何帮助/指针将不胜感激。
谢谢德布贾尼
tsql - SQL Server 2008 (T-SQL) 中的短语搜索
我有一varchar
列有 3 行:
我希望SELECT
查询按以下顺序返回结果:
即那些以开头的匹配'keyword'=orange
应该出现在那些包含关键字的匹配之前,而这些匹配又应该出现在那些以关键字结尾的匹配之前。
如何使用 T-SQL 做到这一点?我尝试使用LIKE
关键字,但到目前为止没有成功。
solr - 有效地为字符串簇选择标题(簇的中心)
我有一个(不完美的)集群字符串数据,其中一个集群中的项目可能如下所示:
最佳标题是“黄熟香蕉”。
目前,我正在使用简单的启发式方法——在 SQL GROUP BY 的帮助下选择最常见或最短的名称。我的数据包含大量此类簇,它们经常变化,并且每次在簇中添加或删除新水果时,都必须重新计算簇的标题。
我想改进两点:
(1)效率——例如,只将新的水果名称与聚类的标题进行比较,避免每次对所有水果标题进行分组/词组聚类。
(2)精确度——我想提取最常见的短语,而不是寻找最常见的完整名称。当前的算法会选择'Yellow成熟',重复2次,是最常见的完整短语;然而,正如短语“黄熟香蕉”是给定集合中最常见的。
我正在考虑使用 Solr + Carrot2(没有第二个经验)。此时,我不需要对文档进行聚类——它们已经根据其他参数进行了聚类——我只需要选择中心短语作为聚类的中心/标题。
非常感谢任何输入,谢谢!
solr - Solr:使用 EdgeNGramFilterFactory 进行精确短语查询
在 Solr (3.3) 中,是否可以通过 a 逐字母搜索字段EdgeNGramFilterFactory
并且对短语查询敏感?
例如,我正在寻找一个字段,如果包含“对比度信息”,如果用户键入:
- 合同
- 信息学
- 控制
- 信息
- “对比信息”
- “合同信息”
目前,我做了这样的事情:
...但它在短语查询上失败了。
当我在 solr admin 中查看模式分析器时,我发现“对比度信息”生成了以下标记:
所以查询使用“contrat in”(连续标记),但不能使用“contrat inf”(因为这两个标记是分开的)。
我很确定任何类型的词干都可以与短语查询一起使用,但是我找不到要在EdgeNGramFilterFactory
.
java - 在 LUCENE 中使用带有 slop 的短语查询时遇到问题
我在短语查询方面遇到了一些问题,所以编写一个小代码来准确了解短语查询实际上是如何与 slop 的东西一起工作的:
我有一个字符串“abc Institute of Technology”,我像这样索引了这个字符串的不同组合(更像是一个木瓦)
现在,当我从索引目录中读取所有标记时,我有这些标记集:
现在当我搜索术语“abc Institute Technology”时
现在根据带有 slop 的短语查询的文档,我应该得到一些结果,但我得到的是空的结果集。但是当我搜索与索引标记完全相同的术语时,我得到了结果。
我认为当我们使用短语查询时,“abc Institute technology”一词应该与“abc Institute Engineering Technology”令牌匹配???
我做错什么了吗?帮助
php - 搜索模式频率
最好是 PHP 解决方案——但任何想法都会很棒。
给一个文本块
'这是一个超级串的一些内容,我想找到红色毛衣和紫色大象。紫色的大象会计数两次。因为红色毛衣出现了 3 次,所以红色毛衣会计算 3 次'
和一个词组列表
“红色毛衣,紫色大象”
想要搜索文本 blob 并返回出现次数
所以
红色毛衣 = 3 紫色大象 = 2
twitter - PHP:使用随机生成并集成转发/分享按钮
我正在尝试创建一个随机生成的短语,可以很容易地在社交媒体网站之间共享,特别是 twitter。我正在使用以下 PHP 代码生成一个随机短语。
此代码在“responses.txt”中查找带有短语的行,我可以调用该行。
例如,我如何能够在此生成的行旁边设置转推按钮,该按钮使用预定的#hatchtag(通过#[websitename])转推短语。
我对 twitter 方面更感兴趣,但其他社交媒体网站可以帮助其他人。
solr - 在 Solr 3.4.0 中支持 EdegeNGram 分析和短语搜索
我想为 SOLR 查询中的每个术语启用“startsWith”搜索,但也能够执行短语搜索(在引号中给出)。对于前缀搜索,我首先添加了后缀“*”。此解决方案允许前缀搜索和短语搜索,但我不喜欢此解决方案,因为它是通配符搜索,通配符搜索不分析术语。
所以我只在索引时启用了 EdgeNgramFilterFactory。前缀搜索工作正常,但确切的短语搜索不再工作。
即使启用了 EdgeNgram,有谁知道如何启用短语搜索?
谢谢!
这是 schema.xml
我还注意到,当使用 WordDelimiterFilterFactory 时,突出显示不再表现良好。
r - R文本挖掘:计算特定单词在语料库中出现的次数?
我已经看到用其他语言回答了这个问题,但没有用 R 语言回答。
[专门用于 R 文本挖掘] 我有一组从语料库中获得的常用短语。现在我想搜索这些短语在另一个语料库中出现的次数。
有没有办法在 TM 包中做到这一点?(或其他相关包)
例如,假设我有一组短语,即从 CorpusA 获得的“标签”。还有另一个语料库,CorpusB,有几千个子文本。我想知道标签中的每个短语在 CorpusB 中出现了多少次。
与往常一样,我感谢您的所有帮助!