问题标签 [stemming]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

514 问题

0 投票

3 回答

2309 浏览

search - 单数/复数搜索和词干提取

我正在为单复数关键字搜索找到一个简单的解决方案。我听说过词干提取，但我不想使用它的所有功能，只有复数/单数转换。语言是荷兰语。以前看过http://www.snowball.tartarus.org。有谁知道单数|复数相关搜索的简单解决方案？提前致谢。

search stemming

2008-10-01T13:16:00.710

0 投票

3 回答

35736 浏览

php - 产生真实单词的词干算法

我需要提取一段文本并从中提取“标签”列表。其中大部分是非常直接的。但是，我现在需要一些帮助来阻止生成的单词列表以避免重复。示例：社区/社区

我使用了 Porter Stemmer 算法的实现（顺便说一下，我正在用 PHP 编写）：

http://tartarus.org/~martin/PorterStemmer/php.txt

这在一定程度上有效，但不会返回“真实”单词。上面的例子源于“commun”。

我试过“Snowball”（在另一个 Stack Overflow 线程中建议）。

http://snowball.tartarus.org/demo.php

对于我的示例（社区/社区），Snowball 源于“communiti”。

问题

有没有其他的词干算法可以做到这一点？有没有其他人解决过这个问题？

我目前的想法是，我可以使用词干算法来避免重复，然后选择我遇到的最短单词作为要显示的实际单词。

php nlp stemming snowball porter-stemmer

Dave

2008-10-10T10:43:29.290

0 投票

2 回答

1960 浏览

comparison - 什么是最好的“交钥匙”词干算法？

对于我正在从事的项目，我需要一个好的词干算法。有人建议我看看 Porter Stemmer。当我查看 Porter 词干分析器的页面时，我发现它现在已被弃用，取而代之的是“Snowball”词干分析器。

我需要一个好的词干分析器，但我真的不能花大量时间来实现（或优化）我自己的词干分析器。什么是最好的“现成”、免费提供的词干分析器？是否有任何价格合理的非免费词干分析器？或者，Snowball 词干分析器是我最好的选择吗？

comparison stemming

dicroce

2008-10-22T16:05:59.463

0 投票

4 回答

8075 浏览

algorithm - Stemming - 代码示例或开源项目？

词干是标记系统中需要的东西。我用delicious，我没有时间管理和修剪我的标签。我对我的博客更加小心，但它并不完美。我为嵌入式系统编写软件，如果它们包含词干提取功能，它们将更加实用（对用户有帮助）。

例如：
Parse
Parser
解析

对于我将它们放入的任何系统，都应该具有相同的含义。

理想情况下，某处有一个 BSD 许可的词干分析器，但如果没有，我在哪里可以学习常用的算法和技术？

除了 BSD 词干分析器，还有哪些其他开源许可词干分析器？

-亚当

algorithm tags nlp stemming

Adam Davis

2009-02-27T15:00:06.700

0 投票

21 回答

138409 浏览

nlp - 如何进行词干提取或词形还原？

我尝试过 PorterStemmer 和 Snowball，但两者都不能处理所有单词，缺少一些非常常见的单词。

我的测试词是：“猫跑仙人掌仙人掌社区”，都答对了不到一半。

也可以看看：

nlp stemming lemmatization

2009-04-21T10:07:03.993

0 投票

2 回答

3720 浏览

lucene - Lucene 希伯来语分析器

有人知道是否存在吗？

我已经在谷歌上搜索了几个月...

谢谢

lucene hebrew stemming

2009-06-30T14:01:13.950

0 投票

2 回答

481 浏览

stemming - 为什么 Porter Stemmer 会产生一个可以再次词干的字符串？

茎（'苹果'）='苹果'
茎（'苹果'）='appl'
茎（'appl'）='appl'

这不是词干算法的缺陷吗？

（这是使用波特词干算法）

stemming porter-stemmer

2009-09-01T22:37:39.363

0 投票

6 回答

4302 浏览

language-agnostic - 你能以编程方式检测英语单词的复数形式，并推导出单数形式吗？

给定一些我们假设是复数的（英语）单词，是否可以推导出单数形式？如果可能的话，我想避免查找/字典表。

一些例子：

或者，这似乎是一个相当详尽的列表。

语言库的建议x很好，只要它们是开源的（即，以便有人可以检查它们以确定如何用语言进行操作y）

language-agnostic nlp stemming lemmatization

2009-09-04T03:09:52.850

0 投票

1 回答

440 浏览

ruby - Ruby Lingua::Stem 替代品

是否有 Perl Lingua::Stem 模块的免费替代品，能够处理俄语？谢谢

ruby stemming

2009-09-04T12:27:04.967

0 投票

1 回答

173 浏览

lucene.net - 在 Lucene .Net 中搜索

我使用 Lucene .Net 进行索引，并在索引时使用 StandardAnalyzer。现在我想搜索说“附加”。在“附加”文件中。我如何获得“附加”一词的成功命中。请尽快帮助我。

lucene.net stemming

Ashish

2009-09-29T06:19:51.040

1 2 3 4 5 6 7 8 9 10