问题标签 [lemmatization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
7632 浏览

nltk - 用 wordnet lemmatizer 提取一些复数词不起作用

嗨,我对 nltk (2.0.4) 有疑问:我试图阻止“男人”或“牙齿”这个词,但它似乎不起作用。这是我的代码:

这应该打印 'man' 和 'tooth' 但它会打印 'men' 和 'teeth'。

任何解决方案?

0 投票
1 回答
1312 浏览

r - 如何在 R 中使用 GermaNet(WordNet 德国通讯员)

我想将GermaNetgetLemma()用于列表(实际上是DTM术语——用于提高文本分类性能)的词形还原(对应于 WordNet 中)。但是,我找不到 GermaNet 的任何提示或 R 包。是否有可能在 R 中仍然使用它?

0 投票
1 回答
1769 浏览

java - 如何从单数形式获得复数形式?

我想得到给定名词的复数。我试过JAVA INFLECTOR。但是对于不遵循规则的名词,它的准确性很差。

来自 JAVA INFLECTOR 的示例:

  1. 狗仔队 -> 狗仔队
  2. 标准 -> 标准
  3. 牙齿 -> 牙齿
  4. 小偷->小偷
  5. 面包 -> 面包

Stanford coreNLP lemmatizer 非常擅长复数到单数的转换。它处理了许多特殊情况。如下所述:

从 STANFORD LEMMATIZER 的复数到单数

  1. 顶点 -> 顶点
  2. 光谱->光谱
  3. 校友 -> 校友
  4. 标准 -> 标准
  5. 小偷->小偷
  6. 鹅 -> 鹅
  7. 真菌 -> 真菌
  8. 面包->面包。

但问题是我不知道如何使用斯坦福 CoreNLP 从给定的单数中获取复数。lemmatizer 从复数中给出单数。

所以,基本上我想使用 STANFORD NLP 从单数名词中得到复数。

如何做到这一点?

0 投票
1 回答
3554 浏览

python - Lemmatizer in R or python (am, are, is -> be?)

I'm not a [computational] linguistic, so please excuse my supper dummy-ness in this topic.

According to Wikipedia, lemmatisation is defined as:

Lemmatisation (or lemmatization) in linguistics, is the process of grouping together the different inflected forms of a word so they can be analysed as a single item.

Now my question is, is the lemmatised version of any member of the set {am, is, are} supposed to be "be"? If not, why not?

Second question: How do I get that in R or python? I've tried methods like this link, but non of them gives "be" given "are". I guess at least for the purpose of classifying text documents, this makes sense to be true.

I also couldn't do that with any of the given demos here.

What am I doing/assuming wrong?

0 投票
1 回答
5431 浏览

python - Python NLTK 使用 wordnet 对“进一步”一词进行词形还原

我正在使用 python、NLTK 和 WordNetLemmatizer 开发词形分析器。这是一个随机文本,输出我所期望的

输出:'bad'

输出:'worse'

嗯,这里的一切都很好。行为与其他形容词相同,例如'better'(对于不规则形式)或'older'(请注意,相同的测试'elder'永远不会输出'old',但我猜 wordnet 并不是所有现有英语单词的详尽列表)

我的问题是在尝试使用这个词时出现的'furter'

输出:'further'

输出:'far'

这与'worse'单词的行为完全相反!

谁能解释我为什么?它是来自 wordnet synsets 数据的错误还是来自我对英语语法的误解?

如果问题已经得到解答,请原谅,我已经在 google 和 SO 上进行了搜索,但是当指定关键字“进一步”时,由于这个词的流行,我可以找到任何相关的东西,除了混乱......

提前谢谢你,Romain G。

0 投票
1 回答
1015 浏览

java - StanfordCoreNLP 不能以我的方式工作

我使用下面的代码。然而,结果并不是我所期望的。结果是[machine, Learning] But I want to get [machine, learn]。我怎样才能做到这一点?另外,当我的输入是 时"biggest bigger",我想得到类似的结果[big, big],但结果只是[biggest bigger]

(PS:我只是在我的eclipse中添加了这四个罐子:joda-time.jar, stanford-corenlp-3.3.1-models.jar, stanford-corenlp-3.3.1.jar, xom.jar我还需要添加一些吗?)

0 投票
0 回答
154 浏览

ruby - 如何在 Ruby 的 Words 或 Wordnet gems 中搜索引理?

这两个 gem 生成的词典包含诸如“发生”或“快乐”之类的词项,但没有“发生”或“更快乐”之类的词。我希望能够使用“发生”或“更快乐”进行搜索,并返回“发生”或“快乐”的同义词集。我可以下载一个 lemmatizer 来执行此操作,但考虑到 Wordnet 已经有单词的变形,这对我来说似乎很浪费(例如,如果我已经有 'happen',我知道如何获得'happened',但我不知道如何转到文档中的另一个方向)。

一个相关的问题:我应该使用单词和 wordnet 之间的哪些宝石?他们之间有什么区别?

(我将其用于需要查找与查询相似的词的搜索栏)

0 投票
1 回答
173 浏览

java - 词形还原 NoSuchMethodError

当我将它放入由许多类组成的项目中时,我使用 Netbeans 8.0(存在于以下链接中)在 java 中的词形还原代码中有一个异常。例外是

0 投票
2 回答
14146 浏览

nlp - word2vec lemmatization of corpus before training

Word2vec seems to be mostly trained on raw corpus data. However, lemmatization is a standard preprocessing for many semantic similarity tasks. I was wondering if anybody had experience in lemmatizing the corpus before training word2vec and if this is a useful preprocessing step to do.

0 投票
1 回答
341 浏览

java - 词形还原类 java

我正在寻找一种“简单”的方法来对 String 或 file.txt 进行词形还原 有人知道可以词形还原的开源类吗?

我在谷歌上只能找到库和包,我不知道它是如何工作的以及如何在 Java 项目中使用它们。