问题标签 [lemmatization]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

393 问题

0 投票

2 回答

6384 浏览

python - 使用 nltk 和 wordnet 对复数名词进行词形还原

我想使用

问题是 POS 标记器知道“procaspases”是“NNS”，但是我如何将 NNS 转换为 wordnet，因为即使在词形还原器之后，“procaspases”仍然是“procaspaseS”。

2015-06-24T02:22:41.917

0 投票

0 回答

20 浏览

java - MorphaStemmer Lemminizer 问题

我正在使用 MorphaStemmer 1.5 来获取单词的单数形式。但在这里它为每个单词提供词干基础。例如，如果搜索保龄球，它会给出碗。如果我使用 led 其给出的线索。我已经尝试了很多单词，它的工作正常，发现我们给出的任何单词，它都将其转换为它的基础。我需要限制这一点，只有在它有单数时才转换，否则返回相同？如果它只是复数，我只需要转换为它的基本形式。

有什么帮助吗？

java lemmatization

2015-07-01T09:50:53.503

0 投票

0 回答

103 浏览

solr - Solr 在运行查询之前修改搜索词

与此插件在索引时执行的操作相同（实现条件复制字段） https://wiki.apache.org/solr/UpdateRequestProcessor 我想在查询时执行相同的操作。

我使用这个插件对文本进行了一次词形还原，然后将词形还原的文本复制到不同的字段。

我想在查询时做同样的事情，但我找不到如何做（或者我不那么容易找到这个）。

所以我想要的是，如果用户搜索 X，在插件上执行此操作： y = process_text(y) 并假设我们有标题和正文进行此搜索：标题：y 正文：y 或者我们可能需要另一个原始文本field title:y body:y otherfield:x 有没有修改查询词的例子？谢谢你们

我会更好地解释它。

我有这些字段：text_en、text_en2de、text_de、text_de2en

我为英语、德语文本做了一个词形还原器。词形还原器需要时间对文本进行词形还原。

在查询时，我使用我所说的插件，并且只对文本进行一次词形还原。然后将词形还原的文本复制到这些字段。

但是，如果我必须在 text_en、text_de2en 上进行搜索...我必须对每个字段进行一次词形还原，这需要时间。

这就是为什么我想在查询时制作一个插件来获取 q 字段，对文本进行词形还原，然后将这个词形还原的文本重定向到我想要的字段。

例如，如果我制作一个自定义 SearchHandler（我认为我必须这样做，但我没有找到任何示例）我会配置它

然后，如果我进行类似q="running" 的搜索，插件将获取这些文本并在

solr lucene lemmatization

2015-07-24T12:24:39.560

0 投票

1 回答

288 浏览

java - 如何在 Java 中检索词位的所有变体？

我正在寻找一种方法来检索特定单词的词位的所有变体。

示例：运行->（运行，运行，运行，运行......）

我根据这篇文章尝试了斯坦福 NLP 。但是，引理注释器仅检索引理（运行 -> 运行），而不是完整的变体集。有没有办法用斯坦福 NLP 或其他 Java Lib/Framework 来做到这一点？

澄清：我不搜索词干分析器。另外，我想避免从头开始编写新算法来爬取 WordNet 或类似的字典。

java nlp stanford-nlp lemmatization

2015-07-30T12:19:49.047

0 投票

2 回答

1009 浏览

python - NLTK 中的 WordNet lemmatizer：“boss”的正确引理是什么？

我使用nltk3.0.4 并注意到单词的引理boss是bosses不同的。

从我的角度来看，这是一种奇怪的行为，尤其boss是 WordNet 中的一个已知单词，并且有一个规则要保留ss。

有没有人有解释或者这只是一个错误？我应该如何处理？

python nltk wordnet lemmatization

2015-08-20T16:08:17.283

0 投票

2 回答

11159 浏览

python - 用于 POS 标记和 Lemmatizer 的多语言 NLTK

最近我接触了 NLP，并尝试使用NLTK和TextBlob来分析文本。我想开发一个分析旅行者评论的应用程序，因此我必须管理大量用不同语言编写的文本。我需要做两个主要操作：POS 标记和词形还原。我已经看到，在 NLTK 中，可以为句子标记化选择正确的语言，如下所示：

我还没有找到正确的方法来为不同语言的 POS Tagging 和 Lemmatizer 设置语言。如何为意大利语、法语、西班牙语或德语等非英语文本设置正确的语料库/词典？我还看到可以导入“TreeBank”或“WordNet”模块，但我不明白如何使用它们。否则，我在哪里可以找到相应的语料库？

你能给我一些建议或参考吗？请注意我不是 NLTK 的专家。

非常感谢。

python nlp nltk pos-tagger lemmatization

2015-09-23T13:29:59.550

0 投票

1 回答

11265 浏览

python - 除非 POS 是显式的，否则 WordNetLemmatizer 不会返回正确的引理 - Python NLTK

我正在对 Ted 数据集成绩单进行词形分析。我注意到一些奇怪的事情：并非所有单词都被词形还原。要说，

哪个是对的。

但是，involved !-> involve除非horsing !-> horse我明确输入“v”（动词）属性。

在 python 终端上，我得到了正确的输出，但在我的代码中却没有：

代码的相关部分是这样的：

整个代码在这里。

问题是什么？

python nlp nltk wordnet lemmatization

2015-10-05T21:06:44.293

0 投票

1 回答

1208 浏览

nlp - 词性标注后词元化会产生意想不到的结果

我正在使用带有 nltk pos_tag 函数和 WordNetLemmatizer 的 python3.5。我的目标是展平我们数据库中的单词以对文本进行分类。我正在尝试使用 lemmatizer 进行测试，但在相同的令牌上使用 POS 标记器时遇到了奇怪的行为。在下面的示例中，我有一个包含三个字符串的列表，当在 POS 标记器中运行它们时，每个其他元素都作为名词（NN）返回，其余元素作为动词（VBG）返回。

这会影响词形还原。输出看起来像这样：

如果我将更多元素添加到相同字符串的列表中，则此相同模式将继续。我正在使用的完整代码是这样的：

nlp nltk pos-tagger lemmatization python-3.5

2015-10-15T20:23:35.083

0 投票

1 回答

657 浏览

python-2.7 - NLTK 词形还原错误结果

我使用了 NLTK 并得到了这样的错误结果：

我认为答案是“代码”而不是鱼。有没有办法解决这个问题或其他 python Lib 可以做得更好？

python-2.7 nltk lemmatization

2015-10-20T12:08:27.707

0 投票

1 回答

292 浏览

java - 如何对阿拉伯语文本进行词形还原

如何对阿拉伯语原始文本进行词形还原？

我熟悉 stanford nlp jars。（http://nlp.stanford.edu/projects/arabic.shtml）

但不幸的是，这并没有提供适当的词形还原。

java python arabic lemmatization

2015-10-28T14:19:07.710

1 2 3 4 5 6 7 8 9 10

问题标签 [lemmatization]

Reference