问题标签 [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - java中的词干库
java中是否有任何用于词干提取的库!?
ruby - Ruby:有没有“知道”英语不规则动词的词干分析器?
有一个 ruby 词干分析器https://github.com/aurelian/ruby-stemmer,但它 1) 不会词干英语不规则动词 2) 无法在 Windows 上构建原生扩展。是否有替代方案可以解决至少一个问题?
javascript - JavaScript 中的俄语 Porter
有人有一个用 JavaScript 提取俄罗斯波特的例子吗?
mysql - SQL Server 与 MySQL:CONTAINS(*,'FORMSOF(THESAURUS,word)')
我很震惊。
当我在 SQL Server 中看到查询非常容易时,我花了 3-4 天时间弄清楚如何在 mysql 中实现词干提取(和同义词搜索):
MySql 上没有类似的东西吗?
search - 波兰语搜索狮身人面像?
我想为一个用 Django 编写的网站实现搜索解决方案。从可用选项(我研究过 Solr、Sphinx、Xapian、PostgreSQL/Tsearch3、MySQL)来看,Sphinx 看起来是最好的。但是,它不支持波兰语的词干提取,这是我想要搜索的数据语言。
在 Sphinx 中处理不受支持的语言的最佳方法是什么?我有一种直觉,我可以从 Ispell 词典中创建一个词干语料库。我怎样才能使它与 Sphinx 一起工作?
java - Lucene 词干分离器的区别:EnglishStemmer、PorterStemmer、LovinsStemmer
有没有人比较过来自 Lucene(包 org.tartarus.snowball.ext)的这些词干分析器:EnglishStemmer、PorterStemmer、LovinsStemmer?它们背后的算法的优点/缺点是什么?什么时候应该使用它们?或者也许有更多的算法可用于英语单词词干提取?
谢谢。
solr - 如何在 Solr 中配置词干提取?
我添加到 solr 索引:“美国”。当我按“美国”搜索时,没有结果。
应该如何配置 schema.xml 以获得结果?
当前配置:
java - 使用 Lucene 提取英语单词
我在 Java 应用程序中处理一些英文文本,我需要对它们进行词干处理。例如,从文本“amenities/amenity”中,我需要得到“amenit”。
该函数如下所示:
我找到了 Lucene Analyzer,但对于我需要的东西来说,它看起来太复杂了。 http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html
有没有办法在不构建分析器的情况下使用它来阻止单词?我不了解所有分析仪业务...
编辑:我实际上需要一个词干+词形还原。Lucene 可以做到这一点吗?
analytics - Javascript 中的停用词删除
嗨,我正在寻找一个可以从 in 文本中删除停用词的库Javascript
,我的最终目标是计算 tf-idf,然后将给定的文档转换为向量空间,而这一切都是Javascript
. 任何人都可以将我指向一个可以帮助我做到这一点的图书馆。只是一个删除停用词的图书馆也会很棒。