问题标签 [porter-stemmer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3438 浏览

lucene - 具有词干提取功能的标准分析器

有没有办法集成PorterStemFilterStandardAnalyzerLucene 中,或者我必须复制/粘贴StandardAnalyzers源代码并添加过滤器,因为StandardAnalyzer它被定义为最终类。有没有更聪明的方法?

另外,如果我不想考虑数字,我该如何实现呢?

谢谢

0 投票
2 回答
703 浏览

nlp - Porter Stemming of Fried

为什么波特词干算法在线

http://text-processing.com/demo/stem/

friedfri不干fry

我不记得ied在英语中有任何以过去时结尾的单词有一个以.结尾的主格形式i

这是一个错误吗?

0 投票
1 回答
737 浏览

elasticsearch - 在 1.2 和 1.4 之间使用英语词干分析器处理所有格(撇号)的差异

我们有两个弹性搜索实例,一个运行 1.2.1 和一个 1.4,两个实例上运行的索引的设置和映射相同,但结果不同。

默认分析器的设置:

弹性搜索版本之间的差异出现在索引/搜索所有格形式时,而在 1.2.1 中,“player”、“players”和“player's”将返回相同的结果,在 1.4 中,前两个(“player”和“players”)具有相同的结果集,而“玩家的”与该集不匹配这是已知的差异吗?在 1.4 及更高版本中获得相同行为的正确方法是什么?

0 投票
1 回答
4324 浏览

java - java opennlp 工具包中内置的 Porter Stemmer

就像在 python nltk ( https://stackoverflow.com/a/10369407/3096792 ) 中有内置的 Stemmer 一样,我想知道 java apache opennlp 中是否有任何内置的 Porter Stemmer 虽然有一个接口在这个包 [opennlp.tools.stemmer.Stemmer] 下。由于我现在不知道或不需要知道词干背后的算法,我需要一个标准包下的 apache opennlp 工具包。如果不存在,java中的替代方法是什么?

0 投票
1 回答
963 浏览

javascript - lunr:返回搜索词的词干,以便我可以在结果中突出显示它

我正在使用 lunr 执行搜索,目前我正在从搜索文本区域的值中突出显示搜索,但 lunr 使用词干分析器并返回与完整搜索词不完全匹配的结果。有没有办法访问 lunr 最终搜索的搜索词的词干?

0 投票
2 回答
2045 浏览

python - 通过 Porter Stemmer 运行文件

我是 python 新手,用书中的例子练习。我可以用一句话来形容:

但是,例如,我不能通过 Porter 词干分析器运行文本文件的前 50 个单词。

编辑:除了拆分()之外还有其他方法吗?split() 有时会给出错误的结果。

0 投票
2 回答
368 浏览

nlp - 词干化后是否有可能得到一个自然词?

我有一个文字游戏,在词干后变成了 plai。现在我又想玩了。可能吗?我用过波特的词干。

0 投票
1 回答
97 浏览

java - 词干和词形还原中未涵盖的 Word 基本形式

我需要找到单词的基本形式。我经历过类似的问题。我正在使用 porter stemmer 和 stanford core NLP 进行词干提取和词形还原。考虑以下 3 组单词 A、B、C:-

可以看出Set C中的词干是相等的,所以我们可以说真实的,真正的和真实性有一定的关系。但同样不能应用于 A 和 B 中在语义上确实相关的单词。是否有可能找到这些词之间的关系?如果是,那么如果它不是词干/词形还原,那么这种关系是什么。

0 投票
1 回答
831 浏览

c# - 信息检索中的波特词干算法

我需要为我的应用程序创建简单的搜索引擎。让我们将其简化为以下内容:我们有一些文本(很多),我需要搜索并显示相关结果。

我基于这篇很棒的文章扩展了一些东西,它对我来说效果很好。

但我在词干方面有问题。例如,“annotation”、“annotations”等词将被提取为“annot”,但假设您尝试搜索某些内容,您会看到意想不到的结果:

  • “anno” - 什么都没有
  • “annota” - 什么都没有。

只有单词“annot”会给出相关的结果。那么,我应该如何改进我的搜索以提供预期的结果?因为“annot”包含“anno”,而“annota”比“annot”略多。一直使用 contains 显然不是解决方案

如果在第一种情况下我可以使用一些三元搜索树,在第二种情况下我不知道该怎么做。

任何想法都会非常有帮助。

更新

oleksii在这里向我指出了 n-gram ,这可能对我有用,但我不知道如何正确索引 n-gram。

所以问题

  • 哪种数据结构最适合我的需求
  • 如何正确索引我的 n-gram
0 投票
1 回答
532 浏览

lucene - 在java中词干和词形还原的最轻量级库

我有一个简单的项目需要实现这种事情。

有人可以指出可以实现这一目标的最轻量级的库吗?(我知道有像 Lucene、CoreNLP 等这样的库。)但是这些都非常重,我真的只需要一个词干分析器/词法分析器

谢谢!