问题标签 [porter-stemmer]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

126 问题

0 投票

1 回答

3438 浏览

lucene - 具有词干提取功能的标准分析器

有没有办法集成PorterStemFilter到StandardAnalyzerLucene 中，或者我必须复制/粘贴StandardAnalyzers源代码并添加过滤器，因为StandardAnalyzer它被定义为最终类。有没有更聪明的方法？

另外，如果我不想考虑数字，我该如何实现呢？

谢谢

lucene stemming porter-stemmer

2014-09-07T20:28:03.170

0 投票

2 回答

703 浏览

nlp - Porter Stemming of Fried

为什么波特词干算法在线

http://text-processing.com/demo/stem/

干fried到fri不干fry？

我不记得ied在英语中有任何以过去时结尾的单词有一个以.结尾的主格形式i。

这是一个错误吗？

nlp nltk stemming porter-stemmer

2014-12-26T15:57:14.123

0 投票

1 回答

737 浏览

elasticsearch - 在 1.2 和 1.4 之间使用英语词干分析器处理所有格（撇号）的差异

我们有两个弹性搜索实例，一个运行 1.2.1 和一个 1.4，两个实例上运行的索引的设置和映射相同，但结果不同。

默认分析器的设置：

弹性搜索版本之间的差异出现在索引/搜索所有格形式时，而在 1.2.1 中，“player”、“players”和“player's”将返回相同的结果，在 1.4 中，前两个（“player”和“players”）具有相同的结果集，而“玩家的”与该集不匹配这是已知的差异吗？在 1.4 及更高版本中获得相同行为的正确方法是什么？

elasticsearch lucene stemming porter-stemmer

2015-01-07T07:32:09.817

0 投票

1 回答

4324 浏览

java - java opennlp 工具包中内置的 Porter Stemmer

就像在 python nltk ( https://stackoverflow.com/a/10369407/3096792 ) 中有内置的 Stemmer 一样，我想知道 java apache opennlp 中是否有任何内置的 Porter Stemmer 虽然有一个接口在这个包 [opennlp.tools.stemmer.Stemmer] 下。由于我现在不知道或不需要知道词干背后的算法，我需要一个标准包下的 apache opennlp 工具包。如果不存在，java中的替代方法是什么？

java machine-learning nlp opennlp porter-stemmer

2015-01-22T07:31:37.277

0 投票

1 回答

963 浏览

javascript - lunr：返回搜索词的词干，以便我可以在结果中突出显示它

我正在使用 lunr 执行搜索，目前我正在从搜索文本区域的值中突出显示搜索，但 lunr 使用词干分析器并返回与完整搜索词不完全匹配的结果。有没有办法访问 lunr 最终搜索的搜索词的词干？

javascript search porter-stemmer lunrjs

2015-02-05T14:17:44.177

0 投票

2 回答

2045 浏览

python - 通过 Porter Stemmer 运行文件

我是 python 新手，用书中的例子练习。我可以用一句话来形容：

但是，例如，我不能通过 Porter 词干分析器运行文本文件的前 50 个单词。

编辑：除了拆分（）之外还有其他方法吗？split() 有时会给出错误的结果。

python nltk porter-stemmer

2015-02-08T18:01:26.000

0 投票

2 回答

368 浏览

nlp - 词干化后是否有可能得到一个自然词？

我有一个文字游戏，在词干后变成了 plai。现在我又想玩了。可能吗？我用过波特的词干。

nlp stemming porter-stemmer

2015-02-10T18:52:49.007

0 投票

1 回答

97 浏览

java - 词干和词形还原中未涵盖的 Word 基本形式

我需要找到单词的基本形式。我经历过类似的问题。我正在使用 porter stemmer 和 stanford core NLP 进行词干提取和词形还原。考虑以下 3 组单词 A、B、C：-

可以看出Set C中的词干是相等的，所以我们可以说真实的，真正的和真实性有一定的关系。但同样不能应用于 A 和 B 中在语义上确实相关的单词。是否有可能找到这些词之间的关系？如果是，那么如果它不是词干/词形还原，那么这种关系是什么。

java stanford-nlp lemmatization porter-stemmer

2015-03-29T17:53:58.480

0 投票

1 回答

831 浏览

c# - 信息检索中的波特词干算法

我需要为我的应用程序创建简单的搜索引擎。让我们将其简化为以下内容：我们有一些文本（很多），我需要搜索并显示相关结果。

我基于这篇很棒的文章扩展了一些东西，它对我来说效果很好。

但我在词干方面有问题。例如，“annotation”、“annotations”等词将被提取为“annot”，但假设您尝试搜索某些内容，您会看到意想不到的结果：

“anno” - 什么都没有
“annota” - 什么都没有。

只有单词“annot”会给出相关的结果。那么，我应该如何改进我的搜索以提供预期的结果？因为“annot”包含“anno”，而“annota”比“annot”略多。一直使用 contains 显然不是解决方案

如果在第一种情况下我可以使用一些三元搜索树，在第二种情况下我不知道该怎么做。

任何想法都会非常有帮助。

更新

oleksii 在这里向我指出了 n-gram ，这可能对我有用，但我不知道如何正确索引 n-gram。

所以问题：

哪种数据结构最适合我的需求
如何正确索引我的 n-gram

c#algorithm information-retrieval stemming porter-stemmer

2015-04-07T11:25:09.443

0 投票

1 回答

532 浏览

lucene - 在java中词干和词形还原的最轻量级库

我有一个简单的项目需要实现这种事情。

有人可以指出可以实现这一目标的最轻量级的库吗？（我知道有像 Lucene、CoreNLP 等这样的库。）但是这些都非常重，我真的只需要一个词干分析器/词法分析器

谢谢！

lucene nlp lemmatization porter-stemmer

2015-04-16T10:29:18.307

1 2 3 4 5 6 7 8 9 10