问题标签 [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nltk - 用 wordnet lemmatizer 提取一些复数词不起作用
嗨,我对 nltk (2.0.4) 有疑问:我试图阻止“男人”或“牙齿”这个词,但它似乎不起作用。这是我的代码:
这应该打印 'man' 和 'tooth' 但它会打印 'men' 和 'teeth'。
任何解决方案?
r - 如何在 R 中使用 GermaNet(WordNet 德国通讯员)
我想将GermaNetgetLemma()
用于列表(实际上是DTM
术语——用于提高文本分类性能)的词形还原(对应于 WordNet 中)。但是,我找不到 GermaNet 的任何提示或 R 包。是否有可能在 R 中仍然使用它?
java - 如何从单数形式获得复数形式?
我想得到给定名词的复数。我试过JAVA INFLECTOR。但是对于不遵循规则的名词,它的准确性很差。
来自 JAVA INFLECTOR 的示例:
- 狗仔队 -> 狗仔队
- 标准 -> 标准
- 牙齿 -> 牙齿
- 小偷->小偷
- 面包 -> 面包
Stanford coreNLP lemmatizer 非常擅长复数到单数的转换。它处理了许多特殊情况。如下所述:
从 STANFORD LEMMATIZER 的复数到单数:
- 顶点 -> 顶点
- 光谱->光谱
- 校友 -> 校友
- 标准 -> 标准
- 小偷->小偷
- 鹅 -> 鹅
- 真菌 -> 真菌
- 面包->面包。
但问题是我不知道如何使用斯坦福 CoreNLP 从给定的单数中获取复数。lemmatizer 从复数中给出单数。
所以,基本上我想使用 STANFORD NLP 从单数名词中得到复数。
如何做到这一点?
python - Lemmatizer in R or python (am, are, is -> be?)
I'm not a [computational] linguistic, so please excuse my supper dummy-ness in this topic.
According to Wikipedia, lemmatisation is defined as:
Lemmatisation (or lemmatization) in linguistics, is the process of grouping together the different inflected forms of a word so they can be analysed as a single item.
Now my question is, is the lemmatised version of any member of the set {am, is, are} supposed to be "be"? If not, why not?
Second question: How do I get that in R or python? I've tried methods like this link, but non of them gives "be" given "are". I guess at least for the purpose of classifying text documents, this makes sense to be true.
I also couldn't do that with any of the given demos here.
What am I doing/assuming wrong?
python - Python NLTK 使用 wordnet 对“进一步”一词进行词形还原
我正在使用 python、NLTK 和 WordNetLemmatizer 开发词形分析器。这是一个随机文本,输出我所期望的
输出:'bad'
输出:'worse'
嗯,这里的一切都很好。行为与其他形容词相同,例如'better'
(对于不规则形式)或'older'
(请注意,相同的测试'elder'
永远不会输出'old'
,但我猜 wordnet 并不是所有现有英语单词的详尽列表)
我的问题是在尝试使用这个词时出现的'furter'
:
输出:'further'
输出:'far'
这与'worse'
单词的行为完全相反!
谁能解释我为什么?它是来自 wordnet synsets 数据的错误还是来自我对英语语法的误解?
如果问题已经得到解答,请原谅,我已经在 google 和 SO 上进行了搜索,但是当指定关键字“进一步”时,由于这个词的流行,我可以找到任何相关的东西,除了混乱......
提前谢谢你,Romain G。
java - StanfordCoreNLP 不能以我的方式工作
我使用下面的代码。然而,结果并不是我所期望的。结果是[machine, Learning]
But I want to get [machine, learn]
。我怎样才能做到这一点?另外,当我的输入是 时"biggest bigger"
,我想得到类似的结果[big, big]
,但结果只是[biggest bigger]
(PS:我只是在我的eclipse中添加了这四个罐子:joda-time.jar, stanford-corenlp-3.3.1-models.jar, stanford-corenlp-3.3.1.jar, xom.jar
我还需要添加一些吗?)
ruby - 如何在 Ruby 的 Words 或 Wordnet gems 中搜索引理?
这两个 gem 生成的词典包含诸如“发生”或“快乐”之类的词项,但没有“发生”或“更快乐”之类的词。我希望能够使用“发生”或“更快乐”进行搜索,并返回“发生”或“快乐”的同义词集。我可以下载一个 lemmatizer 来执行此操作,但考虑到 Wordnet 已经有单词的变形,这对我来说似乎很浪费(例如,如果我已经有 'happen',我知道如何获得'happened',但我不知道如何转到文档中的另一个方向)。
一个相关的问题:我应该使用单词和 wordnet 之间的哪些宝石?他们之间有什么区别?
(我将其用于需要查找与查询相似的词的搜索栏)
java - 词形还原 NoSuchMethodError
当我将它放入由许多类组成的项目中时,我使用 Netbeans 8.0(存在于以下链接中)在 java 中的词形还原代码中有一个异常。例外是
nlp - word2vec lemmatization of corpus before training
Word2vec seems to be mostly trained on raw corpus data. However, lemmatization is a standard preprocessing for many semantic similarity tasks. I was wondering if anybody had experience in lemmatizing the corpus before training word2vec and if this is a useful preprocessing step to do.
java - 词形还原类 java
我正在寻找一种“简单”的方法来对 String 或 file.txt 进行词形还原 有人知道可以词形还原的开源类吗?
我在谷歌上只能找到库和包,我不知道它是如何工作的以及如何在 Java 项目中使用它们。