问题标签 [porter-stemmer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - ElasticSearch 和 Porterstem 分析器
我正在考虑使用 Elasticsearch 来提供我们网站的搜索功能。
我一直在尝试它,但无法启用 Porterstem 分析器(以便搜索战斗匹配战斗和战斗)。
这是我的输入的简要说明。
然而,运行“fight”搜索只匹配第一个条目 - 包含确切术语的条目。
似乎已经设置了正确的设置,但似乎不起作用。
有人启动并运行此功能并能够为我指明正确的方向吗?
java - 使用 Lucene 提取英语单词
我在 Java 应用程序中处理一些英文文本,我需要对它们进行词干处理。例如,从文本“amenities/amenity”中,我需要得到“amenit”。
该函数如下所示:
我找到了 Lucene Analyzer,但对于我需要的东西来说,它看起来太复杂了。 http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html
有没有办法在不构建分析器的情况下使用它来阻止单词?我不了解所有分析仪业务...
编辑:我实际上需要一个词干+词形还原。Lucene 可以做到这一点吗?
mysql - 用于 porter 或 porter 2 词干算法的 MySQL 例程
我正在寻找作为 MySQL 例程(用户定义函数)编写的 Porter 或 Porter 2 词干算法的端口。有人见过吗?
非常感谢!
php - 有没有一种工具可以在 PHP 中获取所有单词的所有派生词?
我需要输入“face”并得到“facial, faces, face, faces, facer, faceable”等。
我遇到了一些效果相反的无效程序,例如 SNOWBALL 和一些似乎不起作用的 Porter Stemming PHP 脚本。
我开始认为我可能必须编写这个脚本 - 但是,我想我会检查一下是否有人已经在那里/做过。
java - java中的停用词和词干分析器
我正在考虑在我的相似性程序中放置一个停用词,然后是一个词干分析器(选择搬运工 1 或 2 取决于最容易实现的)
我想知道,因为我从文件中读取我的文本作为整行并将它们保存为一个长字符串,所以如果我有两个字符串 ex.
现在我得到了那些字符串
词干:我可以直接在它上面使用词干算法,将其保存为字符串,然后像在程序中实现词干分析器之前那样继续处理相似性,比如运行 one.stem(); 之类的事情?
停止词:这是怎么回事?哦,我只是使用;one.replaceall("I", ""); 还是有一些特定的方法可以用于这个过程?我想继续使用该字符串并获取一个字符串,然后再对其使用相似度算法来获取相似度。维基并没有说太多。
希望你能帮帮我!谢谢。
编辑:这是一个与学校相关的项目,我正在写一篇关于不同算法之间相似性的论文,所以我认为我不允许使用 lucene 或其他为我工作的库。另外,在开始使用 Lucene 和 co 等库之前,我想尝试了解它是如何工作的。希望不要太麻烦^^
stemming - 是否有克罗地亚语词干算法的实现?
我正在寻找克罗地亚语词干算法的实现。理想情况下是 Java,但我也接受任何其他语言。
是否有一个说英语的开发人员社区,他们正在开发克罗地亚语的搜索应用程序?
谢谢,
java - 我想要一个 Java 阿拉伯语词干分析器
我正在寻找阿拉伯语的 Java 词干分析器。我找到了一个名为 "AraMorph" 的库,但它的输出是无法控制的,它会生成不需要的单词。
阿拉伯语还有其他词干分析器吗?
python - 兰开斯特或波特
哪个lancaster
或porter
最适合 Stemming ?波特stemmer
太老了,不适合词干吗?
lucene - 在 Solr 中,为什么 'built' 不被限制为 'build' 而 'building' 是?
我试图在这篇文章中弄清楚两件事:
为什么即使字段类型定义定义了词干分析器,“构建”也不会被称为“构建”。然而,“建设”正被限制为“建设”
如何使用 Luke 来检查索引以查看哪些词被词干了,哪些词是词干的。我无法在卢克中看到“建筑”被阻止“建造”。我知道 Lucene 正在阻止它,因为我能够通过搜索“build”成功地检索到带有“building”的行。
这个链接很有帮助,但没有回答我的问题。
作为参考,这里是 schema.xml 部分。
并且字段定义是
数据集由多个文档组成,1 个文档在 features 字段中具有“building”,1 个文档在同一字段中具有“built”,1 个文档在 features 字段中具有“Built-in”:
文件:hd.xml:
文件 ipod_video.xml:
文件 sd500.xml:
使用 Lukeall-3.3.0,这是我通过搜索“功能:构建”得到的结果。请注意,我得到了 1 个(而不是预期的 3 个文档) 即使在那个文档中,我也看不到词干,即我只看到原始单词“building”,如图所示:
并且,再次在 Luke 中搜索“features:built”,返回两个文档:
选择其中之一,会显示原始的“已构建”,但不会显示“构建”。
javascript - Porters 词干算法 Javascript,如何
下面是我从这里获取的用于 JavaScript 的 Porters Stemming Algorithm:http: //tartarus.org/~martin/PorterStemmer/js.txt
我希望能够通过简单地调用来使用该算法:
有没有人对我如何将此功能合并到下面的代码中有任何建议?
类似于以下内容:
任何建议都表示赞赏......