问题标签 [stemming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
12828 浏览

java - java中的词干库

java中是否有任何用于词干提取的库!?

0 投票
3 回答
754 浏览

ruby - Ruby:有没有“知道”英语不规则动词的词干分析器?

有一个 ruby​​ 词干分析器https://github.com/aurelian/ruby-stemmer,但它 1) 不会词干英语不规则动词 2) 无法在 Windows 上构建原生扩展。是否有替代方案可以解决至少一个问题?

0 投票
1 回答
616 浏览

java - 数据整合问题——如何整合相似实体

我有一个数据库,它在同一个表中有非常相似的行。这些行是相似的,因为它们具有几乎相等的列值。我需要将这些相应的行整合到一行中。

例如,应该集成这两个用户(u1 和 u2):

我正在考虑使用一些编辑距离词干技术。其他算法和技术建议?有什么有用的库可以使用(最好是 Python 或 Java)?

0 投票
2 回答
896 浏览

javascript - JavaScript 中的俄语 Porter

有人有一个用 JavaScript 提取俄罗斯波特的例子吗?

0 投票
1 回答
1267 浏览

mysql - SQL Server 与 MySQL:CONTAINS(*,'FORMSOF(THESAURUS,word)')

我很震惊。

当我在 SQL Server 中看到查询非常容易时,我花了 3-4 天时间弄清楚如何在 mysql 中实现词干提取(和同义词搜索):

MySql 上没有类似的东西吗?

0 投票
1 回答
941 浏览

search - 波兰语搜索狮身人面像?

我想为一个用 Django 编写的网站实现搜索解决方案。从可用选项(我研究过 Solr、Sphinx、Xapian、PostgreSQL/Tsearch3、MySQL)来看,Sphinx 看起来是最好的。但是,它不支持波兰语的词干提取,这是我想要搜索的数据语言。

在 Sphinx 中处理不受支持的语言的最佳方法是什么?我有一种直觉,我可以从 Ispell 词典中创建一个词干语料库。我怎样才能使它与 Sphinx 一起工作?

0 投票
2 回答
4789 浏览

java - Lucene 词干分离器的区别:EnglishStemmer、PorterStemmer、LovinsStemmer

有没有人比较过来自 Lucene(包 org.tartarus.snowball.ext)的这些词干分析器:EnglishStemmer、PorterStemmer、LovinsStemmer?它们背后的算法的优点/缺点是什么?什么时候应该使用它们?或者也许有更多的算法可用于英语单词词干提取?

谢谢。

0 投票
2 回答
19982 浏览

solr - 如何在 Solr 中配置词干提取?

我添加到 solr 索引:“美国”。当我按“美国”搜索时,没有结果。

应该如何配置 schema.xml 以获得结果?

当前配置:

0 投票
7 回答
61914 浏览

java - 使用 Lucene 提取英语单词

我在 Java 应用程序中处理一些英文文本,我需要对它们进行词干处理。例如,从文本“amenities/amenity”中,我需要得到“amenit”。

该函数如下所示:

我找到了 Lucene Analyzer,但对于我需要的东西来说,它看起来太复杂了。 http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html

有没有办法在不构建分析器的情况下使用它来阻止单词?我不了解所有分析仪业务...

编辑:我实际上需要一个词干+词形还原。Lucene 可以做到这一点吗?

0 投票
4 回答
12856 浏览

analytics - Javascript 中的停用词删除

嗨,我正在寻找一个可以从 in 文本中删除停用词的库Javascript,我的最终目标是计算 tf-idf,然后将给定的文档转换为向量空间,而这一切都是Javascript. 任何人都可以将我指向一个可以帮助我做到这一点的图书馆。只是一个删除停用词的图书馆也会很棒。