问题标签 [phrase]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2045 浏览

.net - 在 Lucene 中搜索短语

有人可以给我举个例子,如何使用 Lucene.net 搜索短语吗?

假设我的索引中有一个字段为“name”、值为“Jon Skeet”的文档。现在我希望能够在搜索“jon skeet”时找到该文档。

0 投票
6 回答
2919 浏览

c# - 如何在一串文本中提取短语和单词?

我有一个搜索方法,它接收用户输入的字符串,在每个空格字符处拆分它,然后根据分隔项列表继续查找匹配项:

现在我得到了进一步的要求:能够通过双引号分隔符搜索短语,就像谷歌一样。因此,如果提供的搜索词是:

“一行”文字

搜索将匹配出现的“a line of”和“text”而不是四个单独的术语[在搜索之前还需要删除打开和关闭双引号]。

如何在 C# 中实现这一点?我会假设正则表达式将是要走的路,但没有涉足它们,所以不知道它们是否是最好的解决方案。

如果您需要更多信息,请询问。在此先感谢您的帮助。

0 投票
3 回答
977 浏览

c# - 正则表达式提取搜索短语中的搜索词

我有以下搜索词组,我需要提取

  1. ABC XYZ
  2. 手机配件
  3. 三星250

每当它们以任何顺序出现在字符串中时。该应用程序是 C# .Net。

提前致谢。

示例 1 输入 - ABC XYZ 类别:“移动配件” 输出 - ABC XYZ 和移动配件

示例 2 输入 - 型号:“Samsung 250”类别:“Mobile Accessories” ABC XYZ 输出 - Samsung 250、Mobile Accessories 和 ABC XYZ

示例 3 输入 - ABC XYZ 输出 - ABC XYZ

示例 4 输入 - 型号:“Samsung 250” ABC XYZ 输出 - Samsung 250 和 ABC XYZ

0 投票
7 回答
84703 浏览

php - 如何从mysql中的日期获取月份

我希望能够使用如下语句从 mysql 获取结果:

但是我想获取限制在某个月份和年份的结果(基于用户的输入)......我正在尝试这样:

...$m一个月,但它给出了错误。

在该表中,它实际上有两个日期: startDateendDate我关注的是startDate. 输入值将是月份和年份。如何根据当年的那个月份来表达获得结果的 SQL 语句?

0 投票
4 回答
1301 浏览

delphi - Delphi 短语计数/关键字密度

有谁知道如何或有一些代码来计算文档中唯一短语的数量?(单个词,两个词短语,三个词短语)。

谢谢

我正在寻找的示例:我的意思是我有一个文本文档,我需要查看最流行的词组是什么。示例文本

我把车开到洗车场。

我需要这个短语,以及它出现的计数。

任何帮助,将不胜感激。我发现的最重要的东西是来自http://tools.seobook.com/general/keyword-density/source.php的 PHP 脚本

我曾经有一些代码,但我找不到它。

0 投票
1 回答
3299 浏览

search - 如何在倒排索引结构中搜索短语查询?

如果我们想在倒排索引结构中搜索“t1 t2 t3”(t1,t2,t3 必须排队)这样的查询,我们应该怎么做?

1-首先我们搜索 "t1" 术语并找到包含 "t1" 的所有文档,然后对 "t2" 和 "t3" 执行此工作。然后找到“t1”、“t2”和“t3”位置相邻的文档。

2-首先我们搜索“t1”词并找到所有包含“t1”的文档,然后在我们找到的所有文档中,我们搜索“t2”,接下来,在这个结果中,我们找到包含“t3”的文档” 。

我有一个完整的倒排索引。我想知道上面哪些方式是优化的,(1)还是(2)?

多谢。

0 投票
1 回答
565 浏览

nlp - 如何使用 NLP 技术筛选成语并将短语与其他常用短语区分开来?

有哪些技术可以区分普通的常用短语,如“to the”、“and the”,以及具有自己词汇意义的短语和习语,如“pick up”、“fall in love”、“red herring” “, “死路”?

是否有即使没有字典也能成功的技术,例如 HMM 在大型语料库上训练的统计方法?

或者是否有启发式方法,例如忽略或加重可以与几乎任何单词同时出现的“混杂”单词,而不是单独出现或出现在一组特定的有限惯用短语中的单词?

如果有这样的启发式方法,我们如何考虑在“beat up”、“eat up”、“sit up”、“think up”中包含“up”等混杂词的固定短语和口头短语?

更新

我在网上找到了一篇有趣的论文:Unsupervised Type and Token Identication of Idiomatic Expressions

0 投票
2 回答
1695 浏览

algorithm - 高效的短语匹配算法

我有一组大约 700 万个短语来匹配大约 3 亿个查询。

查询可以是子字符串或包含短语本身。基本上我想要衡量两个短语之间的“相似性”[不一定是编辑距离]

有人可以给出一些有效算法的指导来做到这一点。我更喜欢分布式算法,因为我将使用 python 通过流在 Hadoop 上执行此操作。

0 投票
4 回答
2763 浏览

java - Java:匹配字符串中的短语

我在数据库和输入字符串中有一个短语列表(短语可能包含一个或多个单词)。我需要找出哪些短语出现在输入字符串中。

有没有一种有效的方法可以在 Java 中执行这种匹配?

0 投票
1 回答
4126 浏览

lucene - solr/lucene 中的“短语搜索”

我正在使用 solr 1.4 和 solr 4 在文档中进行全文搜索。目前我无法搜索整个短语,例如文本块中的“The dog runs”:“The dog runs through the house”。对于这个测试用例,我使用了一个简单的 solr URL:http://plocalhost:8088/solr/select/?start=0&q= "the dog runs"

我正在使用带有以下选项的标记化、词干化文本文件:

我不知道,为什么它不起作用。:-( ...谢谢你的任何提示。