问题标签 [stemming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3657 浏览

python - Nltk 中的 WordNetLemmatizer 可以词干吗?

我想用Wordnet. 是否wordnet具有词干提取功能?我将这个导入用于我的词干,但它没有按预期工作。

0 投票
2 回答
1840 浏览

python - How do I Get All Attributes Of Synsets?

Please Give Me am example That have all of attribute of synset of a word i know only this attribute: name , lemma_names , definition

thanks

0 投票
2 回答
37587 浏览

python - 在 NLTK 中导入 WordNet

我想导入wordnet字典,但是当我导入字典表单时,wordnet我看到了这个错误:

我在这个目录中安装了 wordnet2.1 但我无法导入请帮我解决这个问题

0 投票
4 回答
5844 浏览

r - R中的基本词干而不是根词干

在 R 中使用 NLP 进行词干提取时,有什么方法可以获取基本词而不是词根?

代码:

我可以使用 R 获得“happyness happies happys”的基本词“happy”(基本词)而不是“happi”(词根)吗?

0 投票
1 回答
735 浏览

python - 兰开斯特或波特

哪个lancasterporter最适合 Stemming ?波特stemmer太老了,不适合词干吗?

0 投票
1 回答
505 浏览

filter - Solr 搜索/分面结果有奇怪的行为:我只得到“词干”字符串(希望它是正确的定义)

抱歉标题这么差,但我不知道如何描述我的问题。我正在使用 sunburnt(python 界面)在我的 django 应用程序中查询 solr。当我搜索时,一切正常,我得到了完整的字符串。另一方面,如果我正在分面(比如说在“job_title”字段上),我只会得到词干

像这样:

等等...这是我的文本字段类型定义:

我认为 PorterStemFilter 是把事情搞砸了,但我需要它来激活建议。有什么帮助吗?

0 投票
2 回答
1560 浏览

solr - 避免因为词干而在 Solr 上缓慢突出显示

我对使用 Solr 很陌生,但想请教您的帮助。我正在开发一个应该能够突出显示查询结果的应用程序。为此,我正在使用正则表达式碎片器:

该字段使用术语向量和偏移量进行索引:

突出显示效果很好,除了它真的很慢。我意识到这是因为荧光笔/片段器再次对所有结果文档进行了词干处理。

你能帮我为什么会发生这种情况,我应该如何避免这种情况?(我认为使用 fastvectorhighlighter 会解决我的问题,但事实并非如此)

0 投票
1 回答
5441 浏览

lucene - Lucene 同义词扩展、词干提取、拼写检查等

我正在使用 Lucene 来索引我的数据库,然后对特定字段(字段名称:关键字)执行短语搜索。我目前正在使用以下代码:

这段代码适用于词干提取,但现在我还想扩展我的查询以进行同义词搜索,比如如果我输入“Man”并且我的 lucene 索引有一个条目“male”,它仍然可以给我一个打击. 我试图在上面代码的第 1 行添加它, 但它没有给我任何结果。我还想介绍拼写检查,如果我输入“难以置信”而不是“难以置信”,它仍然会给我一个结果。query=SynExpand.expand(userQuery,
searcher, analyze,"keyword",serialVersionUID);

我不知道为什么同义词扩展对我不起作用以及如何进行拼写检查。如果有人可以指导我,我将非常感激。

谢谢!

0 投票
1 回答
72 浏览

php - 如何使用 PHP 减少数组中包含的相似短语的数量?

我有一个包含短语(几个到数百个)的数组。

例子:

以编程方式,使用 PHP,我想使用类似词干的东西将上面的列表减少到下面的列表(一些变化是可以接受的,例如,粘合剂涂抹器和粘合剂涂抹器可能难以相互区分,因为词干是相同的):

做这个的最好方式是什么?

0 投票
1 回答
1846 浏览

lucene - 在 Solr 中,为什么 'built' 不被限制为 'build' 而 'building' 是?

我试图在这篇文章中弄清楚两件事:

  1. 为什么即使字段类型定义定义了词干分析器,“构建”也不会被称为“构建”。然而,“建设”正被限制为“建设”

  2. 如何使用 Luke 来检查索引以查看哪些词被词干了,哪些词是词干的。我无法在卢克中看到“建筑”被阻止“建造”。我知道 Lucene 正在阻止它,因为我能够通过搜索“build”成功地检索到带有“building”的行。

这个链接很有帮助,但没有回答我的问题。

作为参考,这里是 schema.xml 部分。

并且字段定义是

数据集由多个文档组成,1 个文档在 features 字段中具有“building”,1 个文档在同一字段中具有“built”,1 个文档在 features 字段中具有“Built-in”:

文件:hd.xml:

文件 ipod_video.xml:

文件 sd500.xml:

使用 Lukeall-3.3.0,这是我通过搜索“功能:构建”得到的结果。请注意,我得到了 1 个(而不是预期的 3 个文档) 在此处输入图像描述 即使在那个文档中,我也看不到词干,即我只看到原始单词“building”,如图所示: 在此处输入图像描述

并且,再次在 Luke 中搜索“features:built”,返回两个文档: 在此处输入图像描述

选择其中之一,会显示原始的“已构建”,但不会显示“构建”。 在此处输入图像描述