问题标签 [stemming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2309 浏览

search - 单数/复数搜索和词干提取

我正在为单复数关键字搜索找到一个简单的解决方案。我听说过词干提取,但我不想使用它的所有功能,只有复数/单数转换。语言是荷兰语。以前看过http://www.snowball.tartarus.org。有谁知道单数|复数相关搜索的简单解决方案?提前致谢。

0 投票
3 回答
35736 浏览

php - 产生真实单词的词干算法

我需要提取一段文本并从中提取“标签”列表。其中大部分是非常直接的。但是,我现在需要一些帮助来阻止生成的单词列表以避免重复。示例:社区/社区

我使用了 Porter Stemmer 算法的实现(顺便说一下,我正在用 PHP 编写):

http://tartarus.org/~martin/PorterStemmer/php.txt

这在一定程度上有效,但不会返回“真实”单词。上面的例子源于“commun”。

我试过“Snowball”(在另一个 Stack Overflow 线程中建议)。

http://snowball.tartarus.org/demo.php

对于我的示例(社区/社区),Snowball 源于“communiti”。

问题

有没有其他的词干算法可以做到这一点?有没有其他人解决过这个问题?

我目前的想法是,我可以使用词干算法来避免重复,然后选择我遇到的最短单词作为要显示的实际单词。

0 投票
2 回答
1960 浏览

comparison - 什么是最好的“交钥匙”词干算法?

对于我正在从事的项目,我需要一个好的词干算法。有人建议我看看 Porter Stemmer。当我查看 Porter 词干分析器的页面时,我发现它现在已被弃用,取而代之的是“Snowball”词干分析器。

我需要一个好的词干分析器,但我真的不能花大量时间来实现(或优化)我自己的词干分析器。什么是最好的“现成”、免费提供的词干分析器?是否有任何价格合理的非免费词干分析器?或者,Snowball 词干分析器是我最好的选择吗?

0 投票
4 回答
8075 浏览

algorithm - Stemming - 代码示例或开源项目?

词干是标记系统中需要的东西。我用delicious,我没有时间管理和修剪我的标签。我对我的博客更加小心,但它并不完美。我为嵌入式系统编写软件,如果它们包含词干提取功能,它们将更加实用(对用户有帮助)。

例如:
Parse
Parser
解析

对于我将它们放入的任何系统,都应该具有相同的含义。

理想情况下,某处有一个 BSD 许可的词干分析器,但如果没有,我在哪里可以学习常用的算法和技术?

除了 BSD 词干分析器,还有哪些其他开源许可词干分析器?

-亚当

0 投票
21 回答
138409 浏览

nlp - 如何进行词干提取或词形还原?

我尝试过 PorterStemmer 和 Snowball,但两者都不能处理所有单词,缺少一些非常常见的单词。

我的测试词是:“猫跑仙人掌仙人掌社区”,都答对了不到一半。

也可以看看:

0 投票
2 回答
3720 浏览

lucene - Lucene 希伯来语分析器

有人知道是否存在吗?

我已经在谷歌上搜索了几个月...

谢谢

0 投票
2 回答
481 浏览

stemming - 为什么 Porter Stemmer 会产生一个可以再次词干的字符串?

茎('苹果')='苹果'
茎('苹果')='appl'
茎('appl')='appl'

这不是词干算法的缺陷吗?

(这是使用波特词干算法

0 投票
6 回答
4302 浏览

language-agnostic - 你能以编程方式检测英语单词的复数形式,并推导出单数形式吗?

给定一些我们假设是复数的(英语)单词,是否可以推导出单数形式?如果可能的话,我想避免查找/字典表。

一些例子:

或者,这似乎是一个相当详尽的列表。

语言库的建议x很好,只要它们是开源的(即,以便有人可以检查它们以确定如何用语言进行操作y

0 投票
1 回答
440 浏览

ruby - Ruby Lingua::Stem 替代品

是否有 Perl Lingua::Stem 模块的免费替代品,能够处理俄语?谢谢

0 投票
1 回答
173 浏览

lucene.net - 在 Lucene .Net 中搜索

我使用 Lucene .Net 进行索引,并在索引时使用 StandardAnalyzer。现在我想搜索说“附加”。在“附加”文件中。我如何获得“附加”一词的成功命中。请尽快帮助我。