问题标签 [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Nltk 中的 WordNetLemmatizer 可以词干吗?
我想用Wordnet
. 是否wordnet
具有词干提取功能?我将这个导入用于我的词干,但它没有按预期工作。
python - How do I Get All Attributes Of Synsets?
Please Give Me am example That have all of attribute of synset
of a word
i know only this attribute: name
, lemma_names
, definition
thanks
python - 在 NLTK 中导入 WordNet
我想导入wordnet
字典,但是当我导入字典表单时,wordnet
我看到了这个错误:
我在这个目录中安装了 wordnet2.1 但我无法导入请帮我解决这个问题
r - R中的基本词干而不是根词干
在 R 中使用 NLP 进行词干提取时,有什么方法可以获取基本词而不是词根?
代码:
我可以使用 R 获得“happyness happies happys”的基本词“happy”(基本词)而不是“happi”(词根)吗?
python - 兰开斯特或波特
哪个lancaster
或porter
最适合 Stemming ?波特stemmer
太老了,不适合词干吗?
filter - Solr 搜索/分面结果有奇怪的行为:我只得到“词干”字符串(希望它是正确的定义)
抱歉标题这么差,但我不知道如何描述我的问题。我正在使用 sunburnt(python 界面)在我的 django 应用程序中查询 solr。当我搜索时,一切正常,我得到了完整的字符串。另一方面,如果我正在分面(比如说在“job_title”字段上),我只会得到词干
像这样:
等等...这是我的文本字段类型定义:
我认为 PorterStemFilter 是把事情搞砸了,但我需要它来激活建议。有什么帮助吗?
solr - 避免因为词干而在 Solr 上缓慢突出显示
我对使用 Solr 很陌生,但想请教您的帮助。我正在开发一个应该能够突出显示查询结果的应用程序。为此,我正在使用正则表达式碎片器:
该字段使用术语向量和偏移量进行索引:
突出显示效果很好,除了它真的很慢。我意识到这是因为荧光笔/片段器再次对所有结果文档进行了词干处理。
你能帮我为什么会发生这种情况,我应该如何避免这种情况?(我认为使用 fastvectorhighlighter 会解决我的问题,但事实并非如此)
lucene - Lucene 同义词扩展、词干提取、拼写检查等
我正在使用 Lucene 来索引我的数据库,然后对特定字段(字段名称:关键字)执行短语搜索。我目前正在使用以下代码:
这段代码适用于词干提取,但现在我还想扩展我的查询以进行同义词搜索,比如如果我输入“Man”并且我的 lucene 索引有一个条目“male”,它仍然可以给我一个打击. 我试图在上面代码的第 1 行添加它,
但它没有给我任何结果。我还想介绍拼写检查,如果我输入“难以置信”而不是“难以置信”,它仍然会给我一个结果。query=SynExpand.expand(userQuery,
searcher, analyze,"keyword",serialVersionUID);
我不知道为什么同义词扩展对我不起作用以及如何进行拼写检查。如果有人可以指导我,我将非常感激。
谢谢!
php - 如何使用 PHP 减少数组中包含的相似短语的数量?
我有一个包含短语(几个到数百个)的数组。
例子:
以编程方式,使用 PHP,我想使用类似词干的东西将上面的列表减少到下面的列表(一些变化是可以接受的,例如,粘合剂涂抹器和粘合剂涂抹器可能难以相互区分,因为词干是相同的):
做这个的最好方式是什么?
lucene - 在 Solr 中,为什么 'built' 不被限制为 'build' 而 'building' 是?
我试图在这篇文章中弄清楚两件事:
为什么即使字段类型定义定义了词干分析器,“构建”也不会被称为“构建”。然而,“建设”正被限制为“建设”
如何使用 Luke 来检查索引以查看哪些词被词干了,哪些词是词干的。我无法在卢克中看到“建筑”被阻止“建造”。我知道 Lucene 正在阻止它,因为我能够通过搜索“build”成功地检索到带有“building”的行。
这个链接很有帮助,但没有回答我的问题。
作为参考,这里是 schema.xml 部分。
并且字段定义是
数据集由多个文档组成,1 个文档在 features 字段中具有“building”,1 个文档在同一字段中具有“built”,1 个文档在 features 字段中具有“Built-in”:
文件:hd.xml:
文件 ipod_video.xml:
文件 sd500.xml:
使用 Lukeall-3.3.0,这是我通过搜索“功能:构建”得到的结果。请注意,我得到了 1 个(而不是预期的 3 个文档) 即使在那个文档中,我也看不到词干,即我只看到原始单词“building”,如图所示:
并且,再次在 Luke 中搜索“features:built”,返回两个文档:
选择其中之一,会显示原始的“已构建”,但不会显示“构建”。