问题标签 [porter-stemmer]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

126 问题

0 投票

2 回答

1988 浏览

c# - 将波特词干算法的输出保存到文本文件

我在 C# 中有这个搬运工算法代码，有人能告诉我如何将此代码的输出保存到 txt 文件吗？我还要输入文件名或其内容吗？

使用系统；使用 System.IO；

命名空间搬运工 { /*

}

c#algorithm stemming porter-stemmer

2011-10-06T07:49:59.483

0 投票

2 回答

1045 浏览

c - 在 C 中集成给定的 Porter 词干分析器

我看到以下有一个 C 的搬运工词干分析器实现http://tartarus.org/martin/PorterStemmer/

但是，尽管我已经尝试了几次，但我无法将它集成到我的代码中。有人可以告诉我应该如何调用下载的文件以及应该传递给它的内容以阻止字符串。

换句话说，我有一个需要词干字符串的程序，我需要一个搬运工词干分析器。我正在考虑使用上述内容，但我不知道如何使用下载的文件。请举例

c algorithm porter-stemmer

2011-10-22T17:31:43.157

0 投票

2 回答

2739 浏览

solr - Solr Snowball 词干分析器与西班牙语不一致

我有这个词干领域：

搜索查询alquileres(rents) 的预期结果将是alquiler(rent) 的匹配项。但是当我进入 Solr 管理站点中的“字段分析”并检查的索引值alquiler和查询值时alquileres，会发生以下情况：

编制索引时alquiler，它会变成alquil.
查询时alquileres，它会变成 alquiler.

因此，搜索单词的复数形式 ( alquileres) 的简单情况不会匹配其单数形式 ( alquiler)。

索引和查询不应该被提取到同一个词干（alquiler或者alquil）吗？这是算法的限制还是我的误解/错误配置？

solr stemming porter-stemmer

2011-12-05T14:07:21.457

0 投票

1 回答

1506 浏览

c# - 数据库中基于文本的搜索的最佳实践

我有一个应用程序，我需要在各种基于文本的字段中进行搜索。该应用程序是使用 NHibernate 作为 ORM 开发的。

我想在搜索中实现 Porter Stemming，以便即使在关键字与相似词匹配时也能够返回相关结果，例如产品的描述包含memories而搜索关键字是memory.

任何人都可以建议此类搜索的最佳做法吗？想到的第一个想法是在数据库中存储同一字段的两个版本，例如：

该Description列将是网站管理员输入的文本，并且是前端可见的文本。

这Description_Search将包含相同的文本，但通过了 Porter-Stemming 算法。然后搜索查询将基于该Description_Search字段，而不是Description.

这有意义吗？存储几乎相同文本的两个版本是否浪费空间？

另外，Lucene.Net在这种情况下会有帮助吗？我也在考虑集成 Lucene.Net 以进行基于全文的搜索，但还没有详细研究它。

提前致谢！

c#database search lucene.net porter-stemmer

2012-01-23T18:58:09.627

0 投票

4 回答

5855 浏览

java - 词干的逆过程

我使用 lucene 雪球分析器来执行词干提取。结果是没有意义的话。我提到了这个问题。

一种解决方案是使用一个数据库，该数据库包含一个词的词干版本与一个稳定版本的词之间的映射。（从社区到社区的示例，无论社区的基础是什么（社区/或其他词））

我想知道是否有执行此类功能的数据库。

java similarity stemming porter-stemmer

2012-02-28T11:30:15.057

0 投票

0 回答

890 浏览

php - 用于站点搜索的 Porter Stemmer

我在我的网站上使用http://tartarus.org/~martin/PorterStemmer/提供的 Porter Stemmer 词干算法的 PHP 版本作为搜索引擎。

问题是我刚刚注意到它会将“有趣”之类的词更改为“有趣”，这意味着正确的匹配项不会显示在搜索结果中。

Porter Stemmer 算法是否适合站点搜索，是否有更好的搜索算法，我该如何克服我的问题？

php stemming porter-stemmer

2012-03-15T14:44:00.113

0 投票

1 回答

11374 浏览

java - 波特词干代码

我对java有点陌生。我正在学习 NLP 课程。我想知道如何在 porter stemmer java 代码上运行输入文件。

java nlp porter-stemmer

2012-03-18T07:08:59.490

0 投票

1 回答

1629 浏览

lucene - Lucene Stemmer 包下载

我想使用来自 lucene 的这两个类 -

但是我在下载的 lucene 3.5 中没有找到这两个类。你能告诉我从哪里可以下载包含这两个类的jar文件。

PS - 我尝试搜索 lucene 3.0.1 jar 但找不到它。

谢谢你。

lucene porter-stemmer

2012-03-21T05:43:03.100

0 投票

0 回答

549 浏览

apache - Apache Solr 中的词干

我正在使用 Apache Solr 来索引数据，并且我想使用词干分析器。我使用了 solr 示例 schema.xml 中给出的“text_en_splitting”字段类型，因为它包含“PorterStemFilterFactory”。我对数据进行了索引，当我在“分析”页面中进行测试时，它显示了词干结果。但是当我搜索时，我发现它没有使用词干结果，因此我没有得到任何回应。例如，我索引了“写”，但当我用“写”搜索时，它没有响应。在这里需要一些帮助。

提前致谢。

apache solr solrj stemming porter-stemmer

2012-06-13T10:19:22.463

0 投票

1 回答

839 浏览

solr - 在 Solr 中自定义 KStem 过滤器

我正在尝试评估将 Solr 中的词干过滤器从 Porter 切换到 KStem。我看到了有关通过 direct_conflations.txt 文件和其他文件配置 KStem 的能力的参考，但我似乎找不到有关如何格式化此文件或如何告诉 KStem 加载此配置文件的文档。

这是加载 KStem 的 schema.xml 中的示例 solr 配置

使用 Porter，您可以像这样配置受保护的字：

我想知道是否有类似的方式来配置 KStem，有人知道或有人知道这在哪里记录吗？

solr lucene stemming porter-stemmer

2012-06-21T17:48:56.847

1 2 3 4 5 6 7 8 9 10

问题标签 [porter-stemmer]

Reference