问题标签 [porter-stemmer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
35736 浏览

php - 产生真实单词的词干算法

我需要提取一段文本并从中提取“标签”列表。其中大部分是非常直接的。但是,我现在需要一些帮助来阻止生成的单词列表以避免重复。示例:社区/社区

我使用了 Porter Stemmer 算法的实现(顺便说一下,我正在用 PHP 编写):

http://tartarus.org/~martin/PorterStemmer/php.txt

这在一定程度上有效,但不会返回“真实”单词。上面的例子源于“commun”。

我试过“Snowball”(在另一个 Stack Overflow 线程中建议)。

http://snowball.tartarus.org/demo.php

对于我的示例(社区/社区),Snowball 源于“communiti”。

问题

有没有其他的词干算法可以做到这一点?有没有其他人解决过这个问题?

我目前的想法是,我可以使用词干算法来避免重复,然后选择我遇到的最短单词作为要显示的实际单词。

0 投票
2 回答
481 浏览

stemming - 为什么 Porter Stemmer 会产生一个可以再次词干的字符串?

茎('苹果')='苹果'
茎('苹果')='appl'
茎('appl')='appl'

这不是词干算法的缺陷吗?

(这是使用波特词干算法

0 投票
2 回答
1040 浏览

.net - Lucene PorterStemmer 问题

给定以下代码:

有人可以解释为什么当单词中有空格时 PorterStemmer 会产生不同的结果吗?我期待“床垫桌”被称为“床垫桌”。

此外,以下代码进一步混淆了这一点:

有人可以解释为什么我使用相同的分析器从 QueryParser() 和 Stem() 函数中得到不同的结果吗?

谢谢,凯尔

0 投票
1 回答
488 浏览

search - Porter Stemmer 算法题

我正在实现一个搜索应用程序。语料库是大型文本文档。在文件处理过程中,我正在标记所有单词并调用 Porter Stemmer 算法 Step1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。

Step1 去掉复数和 -ed 或 -ing...

我注意到像“this”这样的词会变成“thi”。

这是算法的正常操作吗?因为我想标记“this”这个词。

0 投票
7 回答
14454 浏览

java - 是否有 Porter2 词干分析器的 java 实现

你知道 Porter2 词干分析器的任何 java 实现(或任何用 java 编写的更好的词干分析器)吗?我知道这里有一个 Java 版本的 Porter(不是 Porter2):

http://tartarus.org/~martin/PorterStemmer/java.txt

但在http://tartarus.org/~martin/PorterStemmer/上,作者提到 Porter 有点过时,建议使用 Porter2,可在

http://snowball.tartarus.org/algorithms/english/stemmer.html

但是,我的问题是这个 Porter2 是用雪球编写的(我以前从未听说过,所以对此一无所知)。我正在寻找的是它的java版本。

谢谢。他将高度赞赏您的帮助。

0 投票
1 回答
1361 浏览

java - 为什么我的porter stemmer算法的结果没有按照应该的词根?

我需要使用 porter stemmer 算法在我的应用程序中获取词干,但是当我测试从http://www.tartarus.org/~martin/PorterStemmer获得的算法时,词干提取的结果不正确词干,例如:happy --> happi virus --> viru etc 你能帮我解决吗?

0 投票
1 回答
907 浏览

c++ - 关于波特词干算法的困惑

我正在尝试实现搬运工词干算法,但我在这一点上绊倒了

其中方括号表示其内容的任意存在。用 (VC){m} 表示 VC 重复 m 次,这又可以写成

当以这种形式表示时,m 将被称为任何单词或单词部分的 \measure\。m = 0 的情况涵盖了空字。这里有些例子:

我不明白这个“措施”是什么,它代表什么?

0 投票
1 回答
2288 浏览

c++ - 波特词干算法实现问题?

我正在尝试实现搬运工词干算法,但我被困在这一点上:

步骤 1b

饲料的m不是等于1吗?饲料 >> [c]vvc[] >>[c]vc[]。

如果是这样,为什么他不将提要转换为费用,我知道这是错误的,有人可以澄清吗?

你可以在这里查看原始算法http://tartarus.org/~martin/PorterStemmer/def.txt

谢谢

0 投票
1 回答
433 浏览

algorithm - 另一个搬运工词干算法实现问题?

我正在尝试实现搬运工词干算法,但我很难理解这一点

步骤 1c

这不是和我们想要做的相反吗,为什么算法将 Y 转换为 I。

对于这里的完整算法http://tartarus.org/~martin/PorterStemmer/def.txt

谢谢

0 投票
1 回答
584 浏览

php - Porter Stemmer 算法的“对立面”?

我正在寻找某种与Porter Stemmer 算法相反的方法,即字符串“搜索”将返回一个数组“搜索、搜索、搜索等”。

这样的东西是否已经存在(php 中的首选)?

感谢您的帮助!