问题标签 [stemming]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

514 问题

0 投票

5 回答

33244 浏览

python - 需要一个 python 模块来提取文本文档

我需要一个好的 python 模块来在预处理阶段提取文本文档。

我找到了这个

http://pypi.python.org/pypi/PyStemmer/1.0.1

但我在提供的链接中找不到文档。

我有人知道在哪里可以找到文档或任何其他好的词干算法，请帮忙。

2012-04-29T03:11:21.557

0 投票

2 回答

7573 浏览

text - 词干会损害文本分类的精度吗？

我读过词干会损害精度，但会提高文本分类的召回率。这是怎么发生的？当您停止时，您会增加查询和示例文档之间的匹配数，对吗？

text nlp classification stemming

2012-04-29T03:31:50.093

0 投票

1 回答

500 浏览

stemming - 多语言全文：应该使用哪种词干 [Snowball] 语言？

如果我想支持所有语言的全文搜索，我应该使用哪种词干提取语言。据我所知，需要使用该特定词干语言创建索引以支持使用该语言进行搜索，但这对我来说是不可能的，因为我的搜索程序可能包含不同的语言

-- 马诺伊

stemming full-text-search snowball

2012-04-30T12:15:02.810

0 投票

1 回答

8092 浏览

data-mining - 词干对词频的影响？

词频 (TF) 和逆文档频率 (IDF) 如何受到停用词移除和词干提取的影响？

谢谢！

data-mining text-processing tf-idf stop-words stemming

2012-05-05T17:29:34.997

0 投票

1 回答

765 浏览

solr - Solr的语言词干需要解释

我正在使用带有 Solr 的 nutch 来开发阿拉伯语文本的搜索引擎。我需要在我的阿拉伯语文本上实现一个词干分析器，在 Solr Stemmer 上进行搜索时，我发现它提供了这两个过滤器

<filter class="solr.ArabicNormalizationFilterFactory"/>

<filter class="solr.ArabicStemFilterFactory"/>

我试过了，但不明白他们做了什么..所以请任何人都可以帮我举一些例子吗？

并做到这两个做到这一点：

العملات 词根为 عملة

البسَاتِين ، بساتينكم 词根为 بستان

谢谢你。

solr arabic stemming

2012-05-21T07:46:46.227

0 投票

1 回答

164 浏览

rules - 用于形态分析的 Drools

Drools 是否适合为词干和/或 POS 标记编写规则？欢迎提出更好的规则语言的建议。我阅读了该领域的许多使用基于规则的方法的论文，但没有一篇提到使用什么库或框架来编写规则。

我的规则如下：

... 等等。

问题是这些规则太多而无法处理。想象一下有十个字母组，每个组中的每个字母都有一个大小写。我可以轻松地拥有一千多个规则来正确分类单词。我用纯 C# 代码编写了其中的 30 条规则，这足以让我看到这种方法的效率有多低。我已经把我的规则组织成纸上的树。我只需要正确的框架来插入、表示、调整和测试它们。

我希望我的问题很清楚。谢谢你。

rules drools stemming rule-engine pos-tagger

2012-06-08T22:58:03.077

0 投票

0 回答

1537 浏览

django - 使用 ElasticSearch 在 Haystack 中进行多语言词干提取

我想在以 ElasticSearch 作为后端的 Django Haystack 中为每个用户设置词干语言。

在我们的 Django 模型中，我们有图像对象，其中包含以逗号分隔的标签字符字段，用于英语、西班牙语、德语……：tags_en、tags_es、tags_de 等。

西班牙用户应该只在 tags_es 中搜索，并且查询也应该用西班牙文进行检索。

我找不到有关此类功能的任何信息，而且我不介意在 Haystack 的 ElasticSearch 后端中进行调整。你能指出我正确的方向吗？如果有 Solr 的 Haystack 解决方案，那也没关系。

django multilingual django-haystack stemming

2012-06-11T08:18:14.997

0 投票

0 回答

549 浏览

apache - Apache Solr 中的词干

我正在使用 Apache Solr 来索引数据，并且我想使用词干分析器。我使用了 solr 示例 schema.xml 中给出的“text_en_splitting”字段类型，因为它包含“PorterStemFilterFactory”。我对数据进行了索引，当我在“分析”页面中进行测试时，它显示了词干结果。但是当我搜索时，我发现它没有使用词干结果，因此我没有得到任何回应。例如，我索引了“写”，但当我用“写”搜索时，它没有响应。在这里需要一些帮助。

提前致谢。

apache solr solrj stemming porter-stemmer

2012-06-13T10:19:22.463

0 投票

5 回答

2959 浏览

lucene - 通过 ElasticSearch 使用多种词干提取语言

我正在为一个网站构建一个搜索引擎，用户可以来自许多不同的国家并发布文本内容。

我会考虑： - 法语生成法语和英语内容 - 德语生成德语和英语等内容...

我想知道是否可以同时使用不同的雪球词干分析器语言进行搜索，以便我们同时获得适当的结果。

我们是否必须为每个雪球词干分析器语言创建一个索引？

这种情况有已知的模式吗？

谢谢

lucene elasticsearch stemming snowball

2012-06-14T22:16:56.943

0 投票

3 回答

1889 浏览

c# - Lucene.NET PorterStemFilter 源示例，它适合我吗？

首先，我必须说我们使用的 Lucene.NET 版本不是最新的，因为它与 Sitecore 6.4.1 打包在一起，直到现在我们还没有深入研究分析器和词干的使用（大错误！）。

基本上，我们正在尝试在索引时间或查询时间实现某种形式的词干提取（寻找最佳的建议？）。我们遇到的主要问题是所有关于 Stemming 的文档都是用 Java 编写的，我真的很难把它带到 C# 中。我希望有人可以提供该领域的源示例或资源链接。

由于我们的 Lucene.NET 版本非常旧，我认为无法使用 Snowball Analyzer（甚至在我们的版本中也不可用），因此我们正在考虑使用 PorterStemFilter。

任何人都可以就如何在无需升级 Lucene 的情况下使 Stemming 工作提供任何帮助/建议吗？

亲切的问候

史蒂夫

c#lucene.net stemming

2012-06-15T11:30:10.100

1 2 3 4 5 6 7 8 9 10

问题标签 [stemming]

Reference