“phrase”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1468 浏览

.net - Lucene.net 中带有特殊字符的精确短语

我在 lucene.net 中进行全文搜索时遇到问题，其中搜索结果包含特殊的 lucene 字符。

我的 Lucene 文档中有一个名为“内容”的字段。该字段创建如下，包含索引文档的内容：

为了创建索引，我使用 Standardanalyzer。

为了查询索引，我使用以下代码：

然后将该查询添加到用于从 IndexSearcher 获取结果的 BooleanQuery。我认为其余的代码并不那么重要，因为对于 99% 的查询，代码的工作方式都应该如此。我还使用 StandardAnalyzer 来查询索引。

现在问题来了。有时，文档的“内容”字段包含使用“-”分隔的文本

一些文本一些文本选择杆一些文本一些文本

现在，当我使用“选择杆”进行全文搜索（确切的短语）时。查询如下所示：

内容：“选档杆”

这里的问题是也找到了包含上述文本的文档，尽管它不应该被找到，因为这两个词是用“-”分隔的，而不是空白。

我认为这与分析器有关，并且“-”是 lucene 中的特殊字符。

也许有人可以帮我解决这个问题。

在此先感谢马丁

2011-08-10T13:20:21.800

0 投票

2 回答

491 浏览

java - 如何在java中的文档中查找短语（多个标记字符串）的频率？

我想在文档中查找多标记字符串或短语的频率。它不是我正在寻找的单词/单项频率，它始终是多项，并且术语的数量是动态的......

例如：在文档中搜索“与朋友交流”的频率！

任何帮助/指针将不胜感激。

谢谢德布贾尼

java frequency phrase

2011-08-12T10:04:22.833

0 投票

2 回答

212 浏览

tsql - SQL Server 2008 (T-SQL) 中的短语搜索

我有一varchar列有 3 行：

我希望SELECT查询按以下顺序返回结果：

即那些以开头的匹配'keyword'=orange应该出现在那些包含关键字的匹配之前，而这些匹配又应该出现在那些以关键字结尾的匹配之前。

如何使用 T-SQL 做到这一点？我尝试使用LIKE关键字，但到目前为止没有成功。

tsql search phrase

2011-08-26T21:16:25.940

0 投票

1 回答

151 浏览

solr - 有效地为字符串簇选择标题（簇的中心）

我有一个（不完美的）集群字符串数据，其中一个集群中的项目可能如下所示：

最佳标题是“黄熟香蕉”。

目前，我正在使用简单的启发式方法——在 SQL GROUP BY 的帮助下选择最常见或最短的名称。我的数据包含大量此类簇，它们经常变化，并且每次在簇中添加或删除新水果时，都必须重新计算簇的标题。

我想改进两点：

(1)效率——例如，只将新的水果名称与聚类的标题进行比较，避免每次对所有水果标题进行分组/词组聚类。

(2)精确度——我想提取最常见的短语，而不是寻找最常见的完整名称。当前的算法会选择'Yellow成熟'，重复2次，是最常见的完整短语；然而，正如短语“黄熟香蕉”是给定集合中最常见的。

我正在考虑使用 Solr + Carrot2（没有第二个经验）。此时，我不需要对文档进行聚类——它们已经根据其他参数进行了聚类——我只需要选择中心短语作为聚类的中心/标题。

非常感谢任何输入，谢谢！

solr cluster-analysis similarity phrase carrot

2011-09-16T19:37:05.917

0 投票

4 回答

11935 浏览

solr - Solr：使用 EdgeNGramFilterFactory 进行精确短语查询

在 Solr (3.3) 中，是否可以通过 a 逐字母搜索字段EdgeNGramFilterFactory并且对短语查询敏感？

例如，我正在寻找一个字段，如果包含“对比度信息”，如果用户键入：

合同
信息学
控制
信息
“对比信息”
“合同信息”

目前，我做了这样的事情：

...但它在短语查询上失败了。

当我在 solr admin 中查看模式分析器时，我发现“对比度信息”生成了以下标记：

所以查询使用“contrat in”（连续标记），但不能使用“contrat inf”（因为这两个标记是分开的）。

我很确定任何类型的词干都可以与短语查询一起使用，但是我找不到要在EdgeNGramFilterFactory.

solr tokenize phrase

2011-09-30T15:47:27.393

0 投票

1 回答

755 浏览

java - 在 LUCENE 中使用带有 slop 的短语查询时遇到问题

我在短语查询方面遇到了一些问题，所以编写一个小代码来准确了解短语查询实际上是如何与 slop 的东西一起工作的：

我有一个字符串“abc Institute of Technology”，我像这样索引了这个字符串的不同组合（更像是一个木瓦）

现在，当我从索引目录中读取所有标记时，我有这些标记集：

现在当我搜索术语“abc Institute Technology”时

现在根据带有 slop 的短语查询的文档，我应该得到一些结果，但我得到的是空的结果集。但是当我搜索与索引标记完全相同的术语时，我得到了结果。

我认为当我们使用短语查询时，“abc Institute technology”一词应该与“abc Institute Engineering Technology”令牌匹配？？？

我做错什么了吗？帮助

java lucene full-text-search phrase

2011-11-28T13:42:44.937

0 投票

3 回答

143 浏览

php - 搜索模式频率

最好是 PHP 解决方案——但任何想法都会很棒。

给一个文本块

'这是一个超级串的一些内容，我想找到红色毛衣和紫色大象。紫色的大象会计数两次。因为红色毛衣出现了 3 次，所以红色毛衣会计算 3 次'

和一个词组列表

“红色毛衣，紫色大象”

想要搜索文本 blob 并返回出现次数

所以

红色毛衣 = 3 紫色大象 = 2

php frequency phrase

2011-12-06T16:54:39.767

0 投票

1 回答

493 浏览

twitter - PHP：使用随机生成并集成转发/分享按钮

我正在尝试创建一个随机生成的短语，可以很容易地在社交媒体网站之间共享，特别是 twitter。我正在使用以下 PHP 代码生成一个随机短语。

此代码在“responses.txt”中查找带有短语的行，我可以调用该行。

例如，我如何能够在此生成的行旁边设置转推按钮，该按钮使用预定的#hatchtag（通过#[websitename]）转推短语。

我对 twitter 方面更感兴趣，但其他社交媒体网站可以帮助其他人。

twitter random generated phrase

2011-12-22T03:26:59.980

0 投票

3 回答

1510 浏览

solr - 在 Solr 3.4.0 中支持 EdegeNGram 分析和短语搜索

我想为 SOLR 查询中的每个术语启用“startsWith”搜索，但也能够执行短语搜索（在引号中给出）。对于前缀搜索，我首先添加了后缀“*”。此解决方案允许前缀搜索和短语搜索，但我不喜欢此解决方案，因为它是通配符搜索，通配符搜索不分析术语。

所以我只在索引时启用了 EdgeNgramFilterFactory。前缀搜索工作正常，但确切的短语搜索不再工作。

即使启用了 EdgeNgram，有谁知道如何启用短语搜索？

谢谢！

这是 schema.xml

我还注意到，当使用 WordDelimiterFilterFactory 时，突出显示不再表现良好。

solr prefix phrase

2012-01-19T12:53:17.933

0 投票

3 回答

14842 浏览

r - R文本挖掘：计算特定单词在语料库中出现的次数？

我已经看到用其他语言回答了这个问题，但没有用 R 语言回答。

[专门用于 R 文本挖掘] 我有一组从语料库中获得的常用短语。现在我想搜索这些短语在另一个语料库中出现的次数。

有没有办法在 TM 包中做到这一点？（或其他相关包）

例如，假设我有一组短语，即从 CorpusA 获得的“标签”。还有另一个语料库，CorpusB，有几千个子文本。我想知道标签中的每个短语在 CorpusB 中出现了多少次。

与往常一样，我感谢您的所有帮助！

r count text-mining phrase

2012-01-25T00:46:59.953

问题标签 [phrase]

Reference