问题标签 [porter-stemmer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 产生真实单词的词干算法
我需要提取一段文本并从中提取“标签”列表。其中大部分是非常直接的。但是,我现在需要一些帮助来阻止生成的单词列表以避免重复。示例:社区/社区
我使用了 Porter Stemmer 算法的实现(顺便说一下,我正在用 PHP 编写):
http://tartarus.org/~martin/PorterStemmer/php.txt
这在一定程度上有效,但不会返回“真实”单词。上面的例子源于“commun”。
我试过“Snowball”(在另一个 Stack Overflow 线程中建议)。
http://snowball.tartarus.org/demo.php
对于我的示例(社区/社区),Snowball 源于“communiti”。
问题
有没有其他的词干算法可以做到这一点?有没有其他人解决过这个问题?
我目前的想法是,我可以使用词干算法来避免重复,然后选择我遇到的最短单词作为要显示的实际单词。
.net - Lucene PorterStemmer 问题
给定以下代码:
有人可以解释为什么当单词中有空格时 PorterStemmer 会产生不同的结果吗?我期待“床垫桌”被称为“床垫桌”。
此外,以下代码进一步混淆了这一点:
有人可以解释为什么我使用相同的分析器从 QueryParser() 和 Stem() 函数中得到不同的结果吗?
谢谢,凯尔
search - Porter Stemmer 算法题
我正在实现一个搜索应用程序。语料库是大型文本文档。在文件处理过程中,我正在标记所有单词并调用 Porter Stemmer 算法 Step1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。
Step1 去掉复数和 -ed 或 -ing...
我注意到像“this”这样的词会变成“thi”。
这是算法的正常操作吗?因为我想标记“this”这个词。
java - 是否有 Porter2 词干分析器的 java 实现
你知道 Porter2 词干分析器的任何 java 实现(或任何用 java 编写的更好的词干分析器)吗?我知道这里有一个 Java 版本的 Porter(不是 Porter2):
http://tartarus.org/~martin/PorterStemmer/java.txt
但在http://tartarus.org/~martin/PorterStemmer/上,作者提到 Porter 有点过时,建议使用 Porter2,可在
http://snowball.tartarus.org/algorithms/english/stemmer.html
但是,我的问题是这个 Porter2 是用雪球编写的(我以前从未听说过,所以对此一无所知)。我正在寻找的是它的java版本。
谢谢。他将高度赞赏您的帮助。
java - 为什么我的porter stemmer算法的结果没有按照应该的词根?
我需要使用 porter stemmer 算法在我的应用程序中获取词干,但是当我测试从http://www.tartarus.org/~martin/PorterStemmer获得的算法时,词干提取的结果不正确词干,例如:happy --> happi virus --> viru etc 你能帮我解决吗?
c++ - 关于波特词干算法的困惑
我正在尝试实现搬运工词干算法,但我在这一点上绊倒了
其中方括号表示其内容的任意存在。用 (VC){m} 表示 VC 重复 m 次,这又可以写成
当以这种形式表示时,m 将被称为任何单词或单词部分的 \measure\。m = 0 的情况涵盖了空字。这里有些例子:
我不明白这个“措施”是什么,它代表什么?
c++ - 波特词干算法实现问题?
我正在尝试实现搬运工词干算法,但我被困在这一点上:
步骤 1b
饲料的m不是等于1吗?饲料 >> [c]vvc[] >>[c]vc[]。
如果是这样,为什么他不将提要转换为费用,我知道这是错误的,有人可以澄清吗?
你可以在这里查看原始算法http://tartarus.org/~martin/PorterStemmer/def.txt
谢谢
algorithm - 另一个搬运工词干算法实现问题?
我正在尝试实现搬运工词干算法,但我很难理解这一点
步骤 1c
这不是和我们想要做的相反吗,为什么算法将 Y 转换为 I。
对于这里的完整算法http://tartarus.org/~martin/PorterStemmer/def.txt
谢谢