问题标签 [lemmatization]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

393 问题

0 投票

2 回答

7632 浏览

nltk - 用 wordnet lemmatizer 提取一些复数词不起作用

嗨，我对 nltk (2.0.4) 有疑问：我试图阻止“男人”或“牙齿”这个词，但它似乎不起作用。这是我的代码：

这应该打印 'man' 和 'tooth' 但它会打印 'men' 和 'teeth'。

任何解决方案？

2014-03-11T18:23:55.960

0 投票

1 回答

1312 浏览

r - 如何在 R 中使用 GermaNet（WordNet 德国通讯员）

我想将GermaNetgetLemma()用于列表（实际上是DTM术语——用于提高文本分类性能）的词形还原（对应于 WordNet 中）。但是，我找不到 GermaNet 的任何提示或 R 包。是否有可能在 R 中仍然使用它？

r wordnet lemmatization

2014-03-19T04:40:28.367

0 投票

1 回答

1769 浏览

java - 如何从单数形式获得复数形式？

我想得到给定名词的复数。我试过JAVA INFLECTOR。但是对于不遵循规则的名词，它的准确性很差。

来自 JAVA INFLECTOR 的示例：

狗仔队 -> 狗仔队
标准 -> 标准
牙齿 -> 牙齿
小偷->小偷
面包 -> 面包

Stanford coreNLP lemmatizer 非常擅长复数到单数的转换。它处理了许多特殊情况。如下所述：

从 STANFORD LEMMATIZER 的复数到单数：

顶点 -> 顶点
光谱->光谱
校友 -> 校友
标准 -> 标准
小偷->小偷
鹅 -> 鹅
真菌 -> 真菌
面包->面包。

但问题是我不知道如何使用斯坦福 CoreNLP 从给定的单数中获取复数。lemmatizer 从复数中给出单数。

所以，基本上我想使用 STANFORD NLP 从单数名词中得到复数。

如何做到这一点？

java nlp stanford-nlp lemmatization inflector

2014-03-23T09:53:19.523

0 投票

1 回答

3554 浏览

python - Lemmatizer in R or python (am, are, is -> be?)

I'm not a [computational] linguistic, so please excuse my supper dummy-ness in this topic.

According to Wikipedia, lemmatisation is defined as:

Lemmatisation (or lemmatization) in linguistics, is the process of grouping together the different inflected forms of a word so they can be analysed as a single item.

Now my question is, is the lemmatised version of any member of the set {am, is, are} supposed to be "be"? If not, why not?

Second question: How do I get that in R or python? I've tried methods like this link, but non of them gives "be" given "are". I guess at least for the purpose of classifying text documents, this makes sense to be true.

I also couldn't do that with any of the given demos here.

What am I doing/assuming wrong?

python r nlp nltk lemmatization

2014-04-10T16:31:40.720

0 投票

1 回答

5431 浏览

python - Python NLTK 使用 wordnet 对“进一步”一词进行词形还原

我正在使用 python、NLTK 和 WordNetLemmatizer 开发词形分析器。这是一个随机文本，输出我所期望的

输出：'bad'

输出：'worse'

嗯，这里的一切都很好。行为与其他形容词相同，例如'better'（对于不规则形式）或'older'（请注意，相同的测试'elder'永远不会输出'old'，但我猜 wordnet 并不是所有现有英语单词的详尽列表）

我的问题是在尝试使用这个词时出现的'furter'：

输出：'further'

输出：'far'

这与'worse'单词的行为完全相反！

谁能解释我为什么？它是来自 wordnet synsets 数据的错误还是来自我对英语语法的误解？

如果问题已经得到解答，请原谅，我已经在 google 和 SO 上进行了搜索，但是当指定关键字“进一步”时，由于这个词的流行，我可以找到任何相关的东西，除了混乱......

提前谢谢你，Romain G。

python nltk wordnet lemmatization

2014-04-10T21:23:14.117

0 投票

1 回答

1015 浏览

java - StanfordCoreNLP 不能以我的方式工作

我使用下面的代码。然而，结果并不是我所期望的。结果是[machine, Learning] But I want to get [machine, learn]。我怎样才能做到这一点？另外，当我的输入是时"biggest bigger"，我想得到类似的结果[big, big]，但结果只是[biggest bigger]

（PS：我只是在我的eclipse中添加了这四个罐子：joda-time.jar, stanford-corenlp-3.3.1-models.jar, stanford-corenlp-3.3.1.jar, xom.jar我还需要添加一些吗？）

java nlp stanford-nlp stemming lemmatization

2014-04-15T14:39:54.277

0 投票

0 回答

154 浏览

ruby - 如何在 Ruby 的 Words 或 Wordnet gems 中搜索引理？

这两个 gem 生成的词典包含诸如“发生”或“快乐”之类的词项，但没有“发生”或“更快乐”之类的词。我希望能够使用“发生”或“更快乐”进行搜索，并返回“发生”或“快乐”的同义词集。我可以下载一个 lemmatizer 来执行此操作，但考虑到 Wordnet 已经有单词的变形，这对我来说似乎很浪费（例如，如果我已经有 'happen'，我知道如何获得'happened'，但我不知道如何转到文档中的另一个方向）。

一个相关的问题：我应该使用单词和 wordnet 之间的哪些宝石？他们之间有什么区别？

（我将其用于需要查找与查询相似的词的搜索栏）

ruby wordnet lemmatization

2014-05-02T22:50:25.053

0 投票

1 回答

173 浏览

java - 词形还原 NoSuchMethodError

当我将它放入由许多类组成的项目中时，我使用 Netbeans 8.0（存在于以下链接中）在 java 中的词形还原代码中有一个异常。例外是

java lemmatization

2014-05-25T09:02:03.250

0 投票

2 回答

14146 浏览

nlp - word2vec lemmatization of corpus before training

Word2vec seems to be mostly trained on raw corpus data. However, lemmatization is a standard preprocessing for many semantic similarity tasks. I was wondering if anybody had experience in lemmatizing the corpus before training word2vec and if this is a useful preprocessing step to do.

nlp word2vec gensim lemmatization

2014-05-26T20:35:36.227

0 投票

1 回答

341 浏览

java - 词形还原类 java

我正在寻找一种“简单”的方法来对 String 或 file.txt 进行词形还原有人知道可以词形还原的开源类吗？

我在谷歌上只能找到库和包，我不知道它是如何工作的以及如何在 Java 项目中使用它们。

java class lemmatization

2014-06-02T21:30:32.093

1 2 3 4 5 6 7 8 9 10

问题标签 [lemmatization]

Reference