问题标签 [stemming]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

514 问题

0 投票

3 回答

12828 浏览

java - java中的词干库

java中是否有任何用于词干提取的库！？

java api stemming

2010-12-14T22:29:26.363

0 投票

3 回答

754 浏览

ruby - Ruby：有没有“知道”英语不规则动词的词干分析器？

有一个 ruby 词干分析器https://github.com/aurelian/ruby-stemmer，但它 1) 不会词干英语不规则动词 2) 无法在 Windows 上构建原生扩展。是否有替代方案可以解决至少一个问题？

ruby nlp stemming

2010-12-21T16:22:47.117

0 投票

1 回答

616 浏览

java - 数据整合问题——如何整合相似实体

我有一个数据库，它在同一个表中有非常相似的行。这些行是相似的，因为它们具有几乎相等的列值。我需要将这些相应的行整合到一行中。

例如，应该集成这两个用户（u1 和 u2）：

我正在考虑使用一些编辑距离和词干技术。其他算法和技术建议？有什么有用的库可以使用（最好是 Python 或 Java）？

java python stemming edit-distance data-integration

2010-12-25T19:44:53.880

0 投票

2 回答

896 浏览

javascript - JavaScript 中的俄语 Porter

有人有一个用 JavaScript 提取俄罗斯波特的例子吗？

javascript stemming

2011-01-08T10:39:32.510

0 投票

1 回答

1267 浏览

mysql - SQL Server 与 MySQL：CONTAINS(*,'FORMSOF(THESAURUS,word)')

我很震惊。

当我在 SQL Server 中看到查询非常容易时，我花了 3-4 天时间弄清楚如何在 mysql 中实现词干提取（和同义词搜索）：

MySql 上没有类似的东西吗？

mysql sql-server full-text-search stemming thesaurus

2011-01-18T18:06:26.257

0 投票

1 回答

941 浏览

search - 波兰语搜索狮身人面像？

我想为一个用 Django 编写的网站实现搜索解决方案。从可用选项（我研究过 Solr、Sphinx、Xapian、PostgreSQL/Tsearch3、MySQL）来看，Sphinx 看起来是最好的。但是，它不支持波兰语的词干提取，这是我想要搜索的数据语言。

在 Sphinx 中处理不受支持的语言的最佳方法是什么？我有一种直觉，我可以从 Ispell 词典中创建一个词干语料库。我怎样才能使它与 Sphinx 一起工作？

search full-text-search sphinx stemming polish

2011-02-03T19:05:11.143

0 投票

2 回答

4789 浏览

java - Lucene 词干分离器的区别：EnglishStemmer、PorterStemmer、LovinsStemmer

有没有人比较过来自 Lucene（包 org.tartarus.snowball.ext）的这些词干分析器：EnglishStemmer、PorterStemmer、LovinsStemmer？它们背后的算法的优点/缺点是什么？什么时候应该使用它们？或者也许有更多的算法可用于英语单词词干提取？

谢谢。

java lucene stemming

2011-02-21T16:55:07.950

0 投票

2 回答

19982 浏览

solr - 如何在 Solr 中配置词干提取？

我添加到 solr 索引：“美国”。当我按“美国”搜索时，没有结果。

应该如何配置 schema.xml 以获得结果？

当前配置：

solr stemming

2011-03-12T22:27:59.697

0 投票

7 回答

61914 浏览

java - 使用 Lucene 提取英语单词

我在 Java 应用程序中处理一些英文文本，我需要对它们进行词干处理。例如，从文本“amenities/amenity”中，我需要得到“amenit”。

该函数如下所示：

我找到了 Lucene Analyzer，但对于我需要的东西来说，它看起来太复杂了。 http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html

有没有办法在不构建分析器的情况下使用它来阻止单词？我不了解所有分析仪业务...

编辑：我实际上需要一个词干+词形还原。Lucene 可以做到这一点吗？

java lucene stemming porter-stemmer

2011-03-22T13:14:56.360

0 投票

4 回答

12856 浏览

analytics - Javascript 中的停用词删除

嗨，我正在寻找一个可以从 in 文本中删除停用词的库Javascript，我的最终目标是计算 tf-idf，然后将给定的文档转换为向量空间，而这一切都是Javascript. 任何人都可以将我指向一个可以帮助我做到这一点的图书馆。只是一个删除停用词的图书馆也会很棒。

analytics data-mining javascript stemming

2011-04-12T06:51:26.717

1 2 3 4 5 6 7 8 9 10