问题标签 [porter-stemmer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1607 浏览

python - 除了词干还有什么其他选择?

给定一个像这样的单词列表['add', 'adds', 'adding', 'added', 'addition'],我想把它们都归结为同一个单词'add'。这意味着将一个单词的所有不同动词和名词形式(但不是它的形容词和副词形式)合并为一个。

我找不到任何可以做到这一点的词干分析器。我找到的最接近的一个是 PorterStemmer,但它使上面的列表成为['add', 'add', 'ad', 'ad', 'addit']

我对词干技术不是很有经验。所以,我想问一下是否有任何可用的词干分析器可以完成我上面解释的操作?如果没有,您对如何实现这一目标有什么建议吗?

非常感谢,

0 投票
2 回答
2155 浏览

java - Lucene 4.1.0 Porter Stemmer 无法正常工作

我在 Java 中使用我的应用程序,并使用 Lucene 4.1.0 来使用 Porter Stemmer 方法。我已经阅读并实施了这个

这是我的代码

此方法有效,但 Porter Stemmer 对某些单词无法正常工作,例如:

  1. 来源>>来源
  2. 耦合 >> 耦合
  3. 伴奏>>伴奏

也许算法中存在错误?如何解决这个问题呢?

0 投票
1 回答
297 浏览

solr - SOLR 雪球搬运工阿拉伯语

是否有 Snowball Porter 过滤器或任何类似的阿拉伯语过滤器?

<filter class="solr.SnowballPorterFilterFactory" language="English" />

我需要它将复数词标准化为阿拉伯语的单数词

0 投票
1 回答
383 浏览

ruby - NameError: 未初始化的常量 String::Stemmer

我正在使用 ruby​​ 的词干宝石来词干一些单词。我有一个类 naivebayes.rb 或多或少类似于以下内容:

我省略了一些代码。当我在 Rails 应用程序之外运行相同的代码时,它运行得非常好:ruby naivebayes.rb。但是,当我在 rails 控制台或控制器中的 rails 应用程序中运行它时,我收到以下错误:

这让我非常困惑!还没有发现与此类似的其他问题,所以我问是否有人知道如何解决这个问题或我错过了什么。

谢谢!

0 投票
1 回答
2160 浏览

lucene - Lucene 中的 PorterStemmer

我正在寻求有关如何在 Lucene 4.0 中使用 PorterStemFilter 类的帮助。下面是我的索引器,取自http://www.lucenetutorial.com/lucene-in-5-minutes.html

...

……

有人可以帮助我在哪里以及如何使用PorterStemFilter

0 投票
2 回答
244 浏览

nlp - 我应该使用哪种词干算法?

我们正在开发一个垂直搜索引擎作为我们的 BTech 项目。我们想使用词干分析器将网页上的单词转换为它们的词根。我们尝试使用 Porter Stemmer,但它没有给出预期的结果。

Porter Stemmer 错误地转换了例如

那么有人可以建议我们应该使用哪种算法吗?

0 投票
1 回答
808 浏览

solr - 使用荷兰语的 StemmerOverrideFilterFactory 和 SnowballPorterFilterFactory 无法正确分析 Word

索尔:3.5

你好,

我根据以下 fieldType 定义创建了一个荷兰语字段类型:

stemdict_nl.txt 根据http://snowball.tartarus.org/algorithms/kraaij_pohlmann/stemmer.html算法使用 45710 字规则。

大多数搜索查询似乎都运行良好,我得到的建议大多是正确的。

但是,当我搜索“etiketje”时出现问题。根据我的规则:

它应该回退到“etiket”。但是它回退到'etik'。当我分析我的领域时,SOLR 返回:

我希望 SOLR 将“Etiketje”分析为:

希望这里有人可以指出我正确的方向。

0 投票
2 回答
4005 浏览

java - 一个简单的词干算法,使用字符串作为输入

我一直在研究诸如 porter 算法之类的词干算法,但到目前为止我发现的所有内容都将文件作为输入处理。

是否有任何现有算法可以让我简单地将词干分析器传递给字符串,并让它返回词干字符串?

就像是:

0 投票
1 回答
143 浏览

java - Lucene 项目致命错误

我有很多短信,我在代码行下面为它们运行。

// 标记术语

// 词干化

有时我得到以下错误,有时没有:

我应该怎么办?

0 投票
1 回答
1881 浏览

python - Python 词干分析器问题:词干错误

嗨,我正在尝试使用 python 词干分析器来词干,我尝试了 Porter 和 Lancaster,但他们有同样的问题。他们不能阻止以“er”或“e”结尾的正确单词。

例如,它们茎

这是代码的一部分

任何想法来解决这个问题?