问题标签 [stemming]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

514 问题

0 投票

3 回答

3657 浏览

python - Nltk 中的 WordNetLemmatizer 可以词干吗？

我想用Wordnet. 是否wordnet具有词干提取功能？我将这个导入用于我的词干，但它没有按预期工作。

2011-07-12T00:49:56.383

0 投票

2 回答

1840 浏览

python - How do I Get All Attributes Of Synsets?

Please Give Me am example That have all of attribute of synset of a word i know only this attribute: name , lemma_names , definition

thanks

python nltk wordnet stemming

2011-07-12T04:39:01.287

0 投票

2 回答

37587 浏览

python - 在 NLTK 中导入 WordNet

我想导入wordnet字典，但是当我导入字典表单时，wordnet我看到了这个错误：

我在这个目录中安装了 wordnet2.1 但我无法导入请帮我解决这个问题

python dictionary nltk wordnet stemming

2011-07-12T08:00:34.917

0 投票

4 回答

5844 浏览

r - R中的基本词干而不是根词干

在 R 中使用 NLP 进行词干提取时，有什么方法可以获取基本词而不是词根？

代码：

我可以使用 R 获得“happyness happies happys”的基本词“happy”（基本词）而不是“happi”（词根）吗？

r nlp stemming

2011-07-12T13:02:02.877

0 投票

1 回答

735 浏览

python - 兰开斯特或波特

哪个lancaster或porter最适合 Stemming ？波特stemmer太老了，不适合词干吗？

python nltk stemming porter-stemmer

2011-07-12T14:41:24.857

0 投票

1 回答

505 浏览

filter - Solr 搜索/分面结果有奇怪的行为：我只得到“词干”字符串（希望它是正确的定义）

抱歉标题这么差，但我不知道如何描述我的问题。我正在使用 sunburnt（python 界面）在我的 django 应用程序中查询 solr。当我搜索时，一切正常，我得到了完整的字符串。另一方面，如果我正在分面（比如说在“job_title”字段上），我只会得到词干

像这样：

等等...这是我的文本字段类型定义：

我认为 PorterStemFilter 是把事情搞砸了，但我需要它来激活建议。有什么帮助吗？

filter solr stemming facets

2011-07-21T13:24:41.553

0 投票

2 回答

1560 浏览

solr - 避免因为词干而在 Solr 上缓慢突出显示

我对使用 Solr 很陌生，但想请教您的帮助。我正在开发一个应该能够突出显示查询结果的应用程序。为此，我正在使用正则表达式碎片器：

该字段使用术语向量和偏移量进行索引：

突出显示效果很好，除了它真的很慢。我意识到这是因为荧光笔/片段器再次对所有结果文档进行了词干处理。

你能帮我为什么会发生这种情况，我应该如何避免这种情况？（我认为使用 fastvectorhighlighter 会解决我的问题，但事实并非如此）

solr highlighting stemming

2011-07-29T13:33:30.850

0 投票

1 回答

5441 浏览

lucene - Lucene 同义词扩展、词干提取、拼写检查等

我正在使用 Lucene 来索引我的数据库，然后对特定字段（字段名称：关键字）执行短语搜索。我目前正在使用以下代码：

这段代码适用于词干提取，但现在我还想扩展我的查询以进行同义词搜索，比如如果我输入“Man”并且我的 lucene 索引有一个条目“male”，它仍然可以给我一个打击. 我试图在上面代码的第 1 行添加它，但它没有给我任何结果。我还想介绍拼写检查，如果我输入“难以置信”而不是“难以置信”，它仍然会给我一个结果。query=SynExpand.expand(userQuery, searcher, analyze,"keyword",serialVersionUID);

我不知道为什么同义词扩展对我不起作用以及如何进行拼写检查。如果有人可以指导我，我将非常感激。

谢谢！

lucene full-text-search spell-checking synonym stemming

2011-08-13T21:50:13.290

0 投票

1 回答

72 浏览

php - 如何使用 PHP 减少数组中包含的相似短语的数量？

我有一个包含短语（几个到数百个）的数组。

例子：

以编程方式，使用 PHP，我想使用类似词干的东西将上面的列表减少到下面的列表（一些变化是可以接受的，例如，粘合剂涂抹器和粘合剂涂抹器可能难以相互区分，因为词干是相同的):

做这个的最好方式是什么？

php stemming

2011-08-15T03:41:02.483

0 投票

1 回答

1846 浏览

lucene - 在 Solr 中，为什么 'built' 不被限制为 'build' 而 'building' 是？

我试图在这篇文章中弄清楚两件事：

为什么即使字段类型定义定义了词干分析器，“构建”也不会被称为“构建”。然而，“建设”正被限制为“建设”
如何使用 Luke 来检查索引以查看哪些词被词干了，哪些词是词干的。我无法在卢克中看到“建筑”被阻止“建造”。我知道 Lucene 正在阻止它，因为我能够通过搜索“build”成功地检索到带有“building”的行。

这个链接很有帮助，但没有回答我的问题。

作为参考，这里是 schema.xml 部分。

并且字段定义是

数据集由多个文档组成，1 个文档在 features 字段中具有“building”，1 个文档在同一字段中具有“built”，1 个文档在 features 字段中具有“Built-in”：

文件：hd.xml：

文件 ipod_video.xml：

文件 sd500.xml：

使用 Lukeall-3.3.0，这是我通过搜索“功能：构建”得到的结果。请注意，我得到了 1 个（而不是预期的 3 个文档）在此处输入图像描述即使在那个文档中，我也看不到词干，即我只看到原始单词“building”，如图所示：

并且，再次在 Luke 中搜索“features:built”，返回两个文档：在此处输入图像描述

选择其中之一，会显示原始的“已构建”，但不会显示“构建”。在此处输入图像描述

lucene solr stemming porter-stemmer

2011-08-18T01:10:47.587

1 2 3 4 5 6 7 8 9 10

问题标签 [stemming]

Reference