问题标签 [lemmatization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
6384 浏览

python - 使用 nltk 和 wordnet 对复数名词进行词形还原

我想使用

问题是 POS 标记器知道“procaspases”是“NNS”,但是我如何将 NNS 转换为 wordnet,因为即使在词形还原器之后,“procaspases”仍然是“procaspaseS”。

0 投票
0 回答
20 浏览

java - MorphaStemmer Lemminizer 问题

我正在使用 MorphaStemmer 1.5 来获取单词的单数形式。但在这里它为每个单词提供词干基础。例如,如果搜索保龄球,它会给出碗。如果我使用 led 其给出的线索。我已经尝试了很多单词,它的工作正常,发现我们给出的任何单词,它都将其转换为它的基础。我需要限制这一点,只有在它有单数时才转换,否则返回相同?如果它只是复数,我只需要转换为它的基本形式。

有什么帮助吗?

0 投票
0 回答
103 浏览

solr - Solr 在运行查询之前修改搜索词

与此插件在索引时执行的操作相同(实现条件复制字段) https://wiki.apache.org/solr/UpdateRequestProcessor 我想在查询时执行相同的操作。

我使用这个插件对文本进行了一次词形还原,然后将词形还原的文本复制到不同的字段。

我想在查询时做同样的事情,但我找不到如何做(或者我不那么容易找到这个)。

所以我想要的是,如果用户搜索 X,在插件上执行此操作: y = process_text(y) 并假设我们有标题和正文进行此搜索:标题:y 正文:y 或者我们可能需要另一个原始文本field title:y body:y otherfield:x 有没有修改查询词的例子?谢谢你们


我会更好地解释它。

我有这些字段:text_en、text_en2de、text_de、text_de2en

我为英语、德语文本做了一个词形还原器。词形还原器需要时间对文本进行词形还原。

在查询时,我使用我所说的插件,并且只对文本进行一次词形还原。然后将词形还原的文本复制到这些字段。

但是,如果我必须在 text_en、text_de2en 上进行搜索...我必须对每个字段进行一次词形还原,这需要时间。

这就是为什么我想在查询时制作一个插件来获取 q 字段,对文本进行词形还原,然后将这个词形还原的文本重定向到我想要的字段。

例如,如果我制作一个自定义 SearchHandler(我认为我必须这样做,但我没有找到任何示例)我会配置它

然后,如果我进行类似q="running" 的搜索,插件将获取这些文本并在

0 投票
1 回答
288 浏览

java - 如何在 Java 中检索词位的所有变体?

我正在寻找一种方法来检索特定单词的词位的所有变体。

示例:运行->(运行,运行,运行,运行......)

我根据这篇文章尝试了斯坦福 NLP 。但是,引理注释器仅检索引理(运行 -> 运行),而不是完整的变体集。有没有办法用斯坦福 NLP 或其他 Java Lib/Framework 来做到这一点?

澄清:我不搜索词干分析器。另外,我想避免从头开始编写新算法来爬取 WordNet 或类似的字典。

0 投票
2 回答
1009 浏览

python - NLTK 中的 WordNet lemmatizer:“boss”的正确引理是什么?

我使用nltk3.0.4 并注意到单词的引理bossbosses不同的。

从我的角度来看,这是一种奇怪的行为,尤其boss是 WordNet 中的一个已知单词,并且有一个规则要保留ss

有没有人有解释或者这只是一个错误?我应该如何处理?

0 投票
2 回答
11159 浏览

python - 用于 POS 标记和 Lemmatizer 的多语言 NLTK

最近我接触了 NLP,并尝试使用NLTKTextBlob来分析文本。我想开发一个分析旅行者评论的应用程序,因此我必须管理大量用不同语言编写的文本。我需要做两个主要操作:POS 标记和词形还原。我已经看到,在 NLTK 中,可以为句子标记化选择正确的语言,如下所示:

我还没有找到正确的方法来为不同语言的 POS Tagging 和 Lemmatizer 设置语言。如何为意大利语、法语、西班牙语或德语等非英语文本设置正确的语料库/词典?我还看到可以导入“TreeBank”或“WordNet”模块,但我不明白如何使用它们。否则,我在哪里可以找到相应的语料库?

你能给我一些建议或参考吗?请注意我不是 NLTK 的专家。

非常感谢。

0 投票
1 回答
11265 浏览

python - 除非 POS 是显式的,否则 WordNetLemmatizer 不会返回正确的引理 - Python NLTK

我正在对 Ted 数据集成绩单进行词形分析。我注意到一些奇怪的事情:并非所有单词都被词形还原。要说,

哪个是对的。

但是,involved !-> involve除非horsing !-> horse我明确输入“v”(动词)属性。

在 python 终端上,我得到了正确的输出,但在我的代码中却没有:

代码的相关部分是这样的:

整个代码在这里

问题是什么?

0 投票
1 回答
1208 浏览

nlp - 词性标注后词元化会产生意想不到的结果

我正在使用带有 nltk pos_tag 函数和 WordNetLemmatizer 的 python3.5。我的目标是展平我们数据库中的单词以对文本进行分类。我正在尝试使用 lemmatizer 进行测试,但在相同的令牌上使用 POS 标记器时遇到了奇怪的行为。在下面的示例中,我有一个包含三个字符串的列表,当在 POS 标记器中运行它们时,每个其他元素都作为名词(NN)返回,其余元素作为动词(VBG)返回。

这会影响词形还原。输出看起来像这样:

如果我将更多元素添加到相同字符串的列表中,则此相同模式将继续。我正在使用的完整代码是这样的:

0 投票
1 回答
657 浏览

python-2.7 - NLTK 词形还原错误结果

我使用了 NLTK 并得到了这样的错误结果:

我认为答案是“代码”而不是鱼。有没有办法解决这个问题或其他 python Lib 可以做得更好?

0 投票
1 回答
292 浏览

java - 如何对阿拉伯语文本进行词形还原

如何对阿拉伯语原始文本进行词形还原?

我熟悉 stanford nlp jars。(http://nlp.stanford.edu/projects/arabic.shtml

但不幸的是,这并没有提供适当的词形还原。