问题标签 [phrase]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1468 浏览

.net - Lucene.net 中带有特殊字符的精确短语

我在 lucene.net 中进行全文搜索时遇到问题,其中搜索结果包含特殊的 lucene 字符。

我的 Lucene 文档中有一个名为“内容”的字段。该字段创建如下,包含索引文档的内容:

为了创建索引,我使用 Standardanalyzer。

为了查询索引,我使用以下代码:

然后将该查询添加到用于从 IndexSearcher 获取结果的 BooleanQuery。我认为其余的代码并不那么重要,因为对于 99% 的查询,代码的工作方式都应该如此。我还使用 StandardAnalyzer 来查询索引。

现在问题来了。有时,文档的“内容”字段包含使用“-”分隔的文本

一些文本 一些文本选择杆 一些文本 一些文本

现在,当我使用“选择杆”进行全文搜索(确切的短语)时。查询如下所示:

内容:“选档杆”

这里的问题是也找到了包含上述文本的文档,尽管它不应该被找到,因为这两个词是用“-”分隔的,而不是空白。

我认为这与分析器有关,并且“-”是 lucene 中的特殊字符。

也许有人可以帮我解决这个问题。

在此先感谢马丁

0 投票
2 回答
491 浏览

java - 如何在java中的文档中查找短语(多个标记字符串)的频率?

我想在文档中查找多标记字符串或短语的频率。它不是我正在寻找的单词/单项频率,它始终是多项,并且术语的数量是动态的......

例如:在文档中搜索“与朋友交流”的频率!

任何帮助/指针将不胜感激。

谢谢德布贾尼

0 投票
2 回答
212 浏览

tsql - SQL Server 2008 (T-SQL) 中的短语搜索

我有一varchar列有 3 行:

我希望SELECT查询按以下顺序返回结果:

即那些以开头的匹配'keyword'=orange应该出现在那些包含关键字的匹配之前,而这些匹配又应该出现在那些以关键字结尾的匹配之前。

如何使用 T-SQL 做到这一点?我尝试使用LIKE关键字,但到目前为止没有成功。

0 投票
1 回答
151 浏览

solr - 有效地为字符串簇选择标题(簇的中心)

我有一个(不完美的)集群字符串数据,其中一个集群中的项目可能如下所示:

最佳标题是“黄熟香蕉”

目前,我正在使用简单的启发式方法——在 SQL GROUP BY 的帮助下选择最常见或最短的名称。我的数据包含大量此类簇,它们经常变化,并且每次在簇中添加或删除新水果时,都必须重新计算簇的标题。

我想改进两点:

(1)效率——例如,只将新的水果名称与聚类的标题进行比较,避免每次对所有水果标题进行分组/词组聚类。

(2)精确度——我想提取最常见的短语,而不是寻找最常见的完整名称。当前的算法会选择'Yellow成熟',重复2次,是最常见的完整短语;然而,正如短语“黄熟香蕉”是给定集合中最常见的。

我正在考虑使用 Solr + Carrot2(没有第二个经验)。此时,我不需要对文档进行聚类——它们已经根据其他参数进行了聚类——我只需要选择中心短语作为聚类的中心/标题。

非常感谢任何输入,谢谢!

0 投票
4 回答
11935 浏览

solr - Solr:使用 EdgeNGramFilterFactory 进行精确短语查询

在 Solr (3.3) 中,是否可以通过 a 逐字母搜索字段EdgeNGramFilterFactory并且对短语查询敏感?

例如,我正在寻找一个字段,如果包含“对比度信息”,如果用户键入:

  • 合同
  • 信息学
  • 控制
  • 信息
  • “对比信息”
  • “合同信息”

目前,我做了这样的事情:

...但它在短语查询上失败了。

当我在 solr admin 中查看模式分析器时,我发现“对比度信息”生成了以下标记:

所以查询使用“contrat in”(连续标记),但不能使用“contrat inf”(因为这两个标记是分开的)。

我很确定任何类型的词干都可以与短语查询一起使用,但是我找不到要在EdgeNGramFilterFactory.

0 投票
1 回答
755 浏览

java - 在 LUCENE 中使用带有 slop 的短语查询时遇到问题

我在短语查询方面遇到了一些问题,所以编写一个小代码来准确了解短语查询实际上是如何与 slop 的东西一起工作的:

我有一个字符串“abc Institute of Technology”,我像这样索引了这个字符串的不同组合(更像是一个木瓦)

现在,当我从索引目录中读取所有标记时,我有这些标记集:

现在当我搜索术语“abc Institute Technology”时

现在根据带有 slop 的短语查询的文档,我应该得到一些结果,但我得到的是空的结果集。但是当我搜索与索引标记完全相同的术语时,我得到了结果。

我认为当我们使用短语查询时,“abc Institute technology”一词应该与“abc Institute Engineering Technology”令牌匹配???

我做错什么了吗?帮助

0 投票
3 回答
143 浏览

php - 搜索模式频率

最好是 PHP 解决方案——但任何想法都会很棒。

给一个文本块

'这是一个超级串的一些内容,我想找到红色毛衣和紫色大象。紫色的大象会计数两次。因为红色毛衣出现了 3 次,所以红色毛衣会计算 3 次'

和一个词组列表

“红色毛衣,紫色大象”

想要搜索文本 blob 并返回出现次数

所以

红色毛衣 = 3 紫色大象 = 2

0 投票
1 回答
493 浏览

twitter - PHP:使用随机生成并集成转发/分享按钮

我正在尝试创建一个随机生成的短语,可以很容易地在社交媒体网站之间共享,特别是 twitter。我正在使用以下 PHP 代码生成一个随机短语。

此代码在“responses.txt”中查找带有短语的行,我可以调用该行。

例如,我如何能够在此生成的行旁边设置转推按钮,该按钮使用预定的#hatchtag(通过#[websitename])转推短语。

我对 twitter 方面更感兴趣,但其他社交媒体网站可以帮助其他人。

0 投票
3 回答
1510 浏览

solr - 在 Solr 3.4.0 中支持 EdegeNGram 分析和短语搜索

我想为 SOLR 查询中的每个术语启用“startsWith”搜索,但也能够执行短语搜索(在引号中给出)。对于前缀搜索,我首先添加了后缀“*”。此解决方案允许前缀搜索和短语搜索,但我不喜欢此解决方案,因为它是通配符搜索,通配符搜索不分析术语。

所以我只在索引时启用了 EdgeNgramFilterFactory。前缀搜索工作正常,但确切的短语搜索不再工作。

即使启用了 EdgeNgram,有谁知道如何启用短语搜索?

谢谢!

这是 schema.xml

我还注意到,当使用 WordDelimiterFilterFactory 时,突出显示不再表现良好。

0 投票
3 回答
14842 浏览

r - R文本挖掘:计算特定单词在语料库中出现的次数?

我已经看到用其他语言回答了这个问题,但没有用 R 语言回答。

[专门用于 R 文本挖掘] 我有一组从语料库中获得的常用短语。现在我想搜索这些短语在另一个语料库中出现的次数。

有没有办法在 TM 包中做到这一点?(或其他相关包)

例如,假设我有一组短语,即从 CorpusA 获得的“标签”。还有另一个语料库,CorpusB,有几千个子文本。我想知道标签中的每个短语在 CorpusB 中出现了多少次。

与往常一样,我感谢您的所有帮助!