问题标签 [porter-stemmer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 将波特词干算法的输出保存到文本文件
我在 C# 中有这个搬运工算法代码,有人能告诉我如何将此代码的输出保存到 txt 文件吗?我还要输入文件名或其内容吗?
使用系统;使用 System.IO;
命名空间搬运工 { /*
}
c - 在 C 中集成给定的 Porter 词干分析器
我看到以下有一个 C 的搬运工词干分析器实现http://tartarus.org/martin/PorterStemmer/
但是,尽管我已经尝试了几次,但我无法将它集成到我的代码中。有人可以告诉我应该如何调用下载的文件以及应该传递给它的内容以阻止字符串。
换句话说,我有一个需要词干字符串的程序,我需要一个搬运工词干分析器。我正在考虑使用上述内容,但我不知道如何使用下载的文件。请举例
solr - Solr Snowball 词干分析器与西班牙语不一致
我有这个词干领域:
搜索查询alquileres
(rents) 的预期结果将是alquiler
(rent) 的匹配项。但是当我进入 Solr 管理站点中的“字段分析”并检查 的索引值alquiler
和查询值时alquileres
,会发生以下情况:
- 编制索引时
alquiler
,它会变成alquil
. - 查询时
alquileres
,它会变成alquiler
.
因此,搜索单词的复数形式 ( alquileres
) 的简单情况不会匹配其单数形式 ( alquiler
)。
索引和查询不应该被提取到同一个词干(alquiler
或者alquil
)吗?这是算法的限制还是我的误解/错误配置?
c# - 数据库中基于文本的搜索的最佳实践
我有一个应用程序,我需要在各种基于文本的字段中进行搜索。该应用程序是使用 NHibernate 作为 ORM 开发的。
我想在搜索中实现 Porter Stemming,以便即使在关键字与相似词匹配时也能够返回相关结果,例如产品的描述包含memories
而搜索关键字是memory
.
任何人都可以建议此类搜索的最佳做法吗?想到的第一个想法是在数据库中存储同一字段的两个版本,例如:
该Description
列将是网站管理员输入的文本,并且是前端可见的文本。
这Description_Search
将包含相同的文本,但通过了 Porter-Stemming 算法。然后搜索查询将基于该Description_Search
字段,而不是Description
.
这有意义吗?存储几乎相同文本的两个版本是否浪费空间?
另外,Lucene.Net
在这种情况下会有帮助吗?我也在考虑集成 Lucene.Net 以进行基于全文的搜索,但还没有详细研究它。
提前致谢!
java - 词干的逆过程
我使用 lucene 雪球分析器来执行词干提取。结果是没有意义的话。我提到了这个问题。
一种解决方案是使用一个数据库,该数据库包含一个词的词干版本与一个稳定版本的词之间的映射。(从社区到社区的示例,无论社区的基础是什么(社区/或其他词))
我想知道是否有执行此类功能的数据库。
php - 用于站点搜索的 Porter Stemmer
我在我的网站上使用http://tartarus.org/~martin/PorterStemmer/提供的 Porter Stemmer 词干算法的 PHP 版本作为搜索引擎。
问题是我刚刚注意到它会将“有趣”之类的词更改为“有趣”,这意味着正确的匹配项不会显示在搜索结果中。
Porter Stemmer 算法是否适合站点搜索,是否有更好的搜索算法,我该如何克服我的问题?
java - 波特词干代码
我对java有点陌生。我正在学习 NLP 课程。我想知道如何在 porter stemmer java 代码上运行输入文件。
lucene - Lucene Stemmer 包下载
我想使用来自 lucene 的这两个类 -
但是我在下载的 lucene 3.5 中没有找到这两个类。你能告诉我从哪里可以下载包含这两个类的jar文件。
PS - 我尝试搜索 lucene 3.0.1 jar 但找不到它。
谢谢你。
apache - Apache Solr 中的词干
我正在使用 Apache Solr 来索引数据,并且我想使用词干分析器。我使用了 solr 示例 schema.xml 中给出的“text_en_splitting”字段类型,因为它包含“PorterStemFilterFactory”。我对数据进行了索引,当我在“分析”页面中进行测试时,它显示了词干结果。但是当我搜索时,我发现它没有使用词干结果,因此我没有得到任何回应。例如,我索引了“写”,但当我用“写”搜索时,它没有响应。在这里需要一些帮助。
提前致谢。
solr - 在 Solr 中自定义 KStem 过滤器
我正在尝试评估将 Solr 中的词干过滤器从 Porter 切换到 KStem。我看到了有关通过 direct_conflations.txt 文件和其他文件配置 KStem 的能力的参考,但我似乎找不到有关如何格式化此文件或如何告诉 KStem 加载此配置文件的文档。
这是加载 KStem 的 schema.xml 中的示例 solr 配置
使用 Porter,您可以像这样配置受保护的字:
我想知道是否有类似的方式来配置 KStem,有人知道或有人知道这在哪里记录吗?