问题标签 [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 需要一个 python 模块来提取文本文档
我需要一个好的 python 模块来在预处理阶段提取文本文档。
我找到了这个
http://pypi.python.org/pypi/PyStemmer/1.0.1
但我在提供的链接中找不到文档。
我有人知道在哪里可以找到文档或任何其他好的词干算法,请帮忙。
text - 词干会损害文本分类的精度吗?
我读过词干会损害精度,但会提高文本分类的召回率。这是怎么发生的?当您停止时,您会增加查询和示例文档之间的匹配数,对吗?
stemming - 多语言全文:应该使用哪种词干 [Snowball] 语言?
如果我想支持所有语言的全文搜索,我应该使用哪种词干提取语言。据我所知,需要使用该特定词干语言创建索引以支持使用该语言进行搜索,但这对我来说是不可能的,因为我的搜索程序可能包含不同的语言
-- 马诺伊
data-mining - 词干对词频的影响?
词频 (TF) 和逆文档频率 (IDF) 如何受到停用词移除和词干提取的影响?
谢谢!
solr - Solr的语言词干需要解释
我正在使用带有 Solr 的 nutch 来开发阿拉伯语文本的搜索引擎。我需要在我的阿拉伯语文本上实现一个词干分析器,在 Solr Stemmer 上进行搜索时,我发现它提供了这两个过滤器
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
我试过了,但不明白他们做了什么..所以请任何人都可以帮我举一些例子吗?
并做到这两个做到这一点:
العملات 词根为 عملة
البسَاتِين ، بساتينكم 词根为 بستان
谢谢你。
rules - 用于形态分析的 Drools
Drools 是否适合为词干和/或 POS 标记编写规则?欢迎提出更好的规则语言的建议。我阅读了该领域的许多使用基于规则的方法的论文,但没有一篇提到使用什么库或框架来编写规则。
我的规则如下:
... 等等。
问题是这些规则太多而无法处理。想象一下有十个字母组,每个组中的每个字母都有一个大小写。我可以轻松地拥有一千多个规则来正确分类单词。我用纯 C# 代码编写了其中的 30 条规则,这足以让我看到这种方法的效率有多低。我已经把我的规则组织成纸上的树。我只需要正确的框架来插入、表示、调整和测试它们。
我希望我的问题很清楚。谢谢你。
django - 使用 ElasticSearch 在 Haystack 中进行多语言词干提取
我想在以 ElasticSearch 作为后端的 Django Haystack 中为每个用户设置词干语言。
在我们的 Django 模型中,我们有图像对象,其中包含以逗号分隔的标签字符字段,用于英语、西班牙语、德语……:tags_en、tags_es、tags_de 等。
西班牙用户应该只在 tags_es 中搜索,并且查询也应该用西班牙文进行检索。
我找不到有关此类功能的任何信息,而且我不介意在 Haystack 的 ElasticSearch 后端中进行调整。你能指出我正确的方向吗?如果有 Solr 的 Haystack 解决方案,那也没关系。
apache - Apache Solr 中的词干
我正在使用 Apache Solr 来索引数据,并且我想使用词干分析器。我使用了 solr 示例 schema.xml 中给出的“text_en_splitting”字段类型,因为它包含“PorterStemFilterFactory”。我对数据进行了索引,当我在“分析”页面中进行测试时,它显示了词干结果。但是当我搜索时,我发现它没有使用词干结果,因此我没有得到任何回应。例如,我索引了“写”,但当我用“写”搜索时,它没有响应。在这里需要一些帮助。
提前致谢。
lucene - 通过 ElasticSearch 使用多种词干提取语言
我正在为一个网站构建一个搜索引擎,用户可以来自许多不同的国家并发布文本内容。
我会考虑: - 法语生成法语和英语内容 - 德语生成德语和英语等内容...
我想知道是否可以同时使用不同的雪球词干分析器语言进行搜索,以便我们同时获得适当的结果。
我们是否必须为每个雪球词干分析器语言创建一个索引?
这种情况有已知的模式吗?
谢谢
c# - Lucene.NET PorterStemFilter 源示例,它适合我吗?
首先,我必须说我们使用的 Lucene.NET 版本不是最新的,因为它与 Sitecore 6.4.1 打包在一起,直到现在我们还没有深入研究分析器和词干的使用(大错误!)。
基本上,我们正在尝试在索引时间或查询时间实现某种形式的词干提取(寻找最佳的建议?)。我们遇到的主要问题是所有关于 Stemming 的文档都是用 Java 编写的,我真的很难把它带到 C# 中。我希望有人可以提供该领域的源示例或资源链接。
由于我们的 Lucene.NET 版本非常旧,我认为无法使用 Snowball Analyzer(甚至在我们的版本中也不可用),因此我们正在考虑使用 PorterStemFilter。
任何人都可以就如何在无需升级 Lucene 的情况下使 Stemming 工作提供任何帮助/建议吗?
亲切的问候
史蒂夫