问题标签 [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - 单数/复数搜索和词干提取
我正在为单复数关键字搜索找到一个简单的解决方案。我听说过词干提取,但我不想使用它的所有功能,只有复数/单数转换。语言是荷兰语。以前看过http://www.snowball.tartarus.org。有谁知道单数|复数相关搜索的简单解决方案?提前致谢。
php - 产生真实单词的词干算法
我需要提取一段文本并从中提取“标签”列表。其中大部分是非常直接的。但是,我现在需要一些帮助来阻止生成的单词列表以避免重复。示例:社区/社区
我使用了 Porter Stemmer 算法的实现(顺便说一下,我正在用 PHP 编写):
http://tartarus.org/~martin/PorterStemmer/php.txt
这在一定程度上有效,但不会返回“真实”单词。上面的例子源于“commun”。
我试过“Snowball”(在另一个 Stack Overflow 线程中建议)。
http://snowball.tartarus.org/demo.php
对于我的示例(社区/社区),Snowball 源于“communiti”。
问题
有没有其他的词干算法可以做到这一点?有没有其他人解决过这个问题?
我目前的想法是,我可以使用词干算法来避免重复,然后选择我遇到的最短单词作为要显示的实际单词。
comparison - 什么是最好的“交钥匙”词干算法?
对于我正在从事的项目,我需要一个好的词干算法。有人建议我看看 Porter Stemmer。当我查看 Porter 词干分析器的页面时,我发现它现在已被弃用,取而代之的是“Snowball”词干分析器。
我需要一个好的词干分析器,但我真的不能花大量时间来实现(或优化)我自己的词干分析器。什么是最好的“现成”、免费提供的词干分析器?是否有任何价格合理的非免费词干分析器?或者,Snowball 词干分析器是我最好的选择吗?
algorithm - Stemming - 代码示例或开源项目?
词干是标记系统中需要的东西。我用delicious,我没有时间管理和修剪我的标签。我对我的博客更加小心,但它并不完美。我为嵌入式系统编写软件,如果它们包含词干提取功能,它们将更加实用(对用户有帮助)。
例如:
Parse
Parser
解析
对于我将它们放入的任何系统,都应该具有相同的含义。
理想情况下,某处有一个 BSD 许可的词干分析器,但如果没有,我在哪里可以学习常用的算法和技术?
除了 BSD 词干分析器,还有哪些其他开源许可词干分析器?
-亚当
nlp - 如何进行词干提取或词形还原?
我尝试过 PorterStemmer 和 Snowball,但两者都不能处理所有单词,缺少一些非常常见的单词。
我的测试词是:“猫跑仙人掌仙人掌社区”,都答对了不到一半。
也可以看看:
lucene - Lucene 希伯来语分析器
有人知道是否存在吗?
我已经在谷歌上搜索了几个月...
谢谢
language-agnostic - 你能以编程方式检测英语单词的复数形式,并推导出单数形式吗?
给定一些我们假设是复数的(英语)单词,是否可以推导出单数形式?如果可能的话,我想避免查找/字典表。
一些例子:
语言库的建议x
很好,只要它们是开源的(即,以便有人可以检查它们以确定如何用语言进行操作y
)
ruby - Ruby Lingua::Stem 替代品
是否有 Perl Lingua::Stem 模块的免费替代品,能够处理俄语?谢谢
lucene.net - 在 Lucene .Net 中搜索
我使用 Lucene .Net 进行索引,并在索引时使用 StandardAnalyzer。现在我想搜索说“附加”。在“附加”文件中。我如何获得“附加”一词的成功命中。请尽快帮助我。