python - 在 python nltk 中，我试图通过使用 pos_tag 来获取单词的词性。但我得到不准确的输出？告诉我更好的标记器？

Question

import nltk
from nltk import word_tokenizer

w="cat"
word=nltk.word_tokenize(w)
print nltk.pos_tag(word)

output:[('cat','IN')]

但是 cat 是一个名词，但它返回为 IN(Conjunction)。

score 0 · Accepted Answer

POS 标记在句子上下文之外并不能很好地工作。输入一个完整的句子pos_tag而不是一个单词，然后再试一次。如果它不起作用，请使用nltk.download()获取更好的 POS 标记模型并运行它。

如果您需要单个单词的所有 POS 标签，请尝试 WordNet：

In [9]: nltk.corpus.wordnet.synsets('cat')
Out[9]: 
[Synset('cat.n.01'),
 Synset('guy.n.01'),
 Synset('cat.n.03'),
 Synset('kat.n.01'),
 Synset("cat-o'-nine-tails.n.01"),
 Synset('caterpillar.n.02'),
 Synset('big_cat.n.01'),
 Synset('computerized_tomography.n.01'),
 Synset('cat.v.01'),
 Synset('vomit.v.01')]

（如您所见，您可能必须过滤这些。）

score 0 · Accepted Answer

尝试hunpos使用预训练模型en_wsj.model：

$ gzip -d en_wsj.model.gz 
$ wget https://hunpos.googlecode.com/files/en_wsj.model.gz
$ python
>>> from nltk.tag.hunpos import HunposTagger
>>> from nltk.tokenize import word_tokenize
>>> sent = "cat"
>>> ht = HunposTagger('en_wsj.model')
>>> print ht.tag(word_tokenize(sent))
[('cat', 'NN')]

请参阅如何在 nltk 中使用 hunpos 标记文本文件？pos_tag, hunpos 总是比NLTK 中的默认设置好得多。

python - 在 python nltk 中，我试图通过使用 pos_tag 来获取单词的词性。但我得到不准确的输出？告诉我更好的标记器？

2 回答 2

Related

Reference