python - 使用 NLTK WordNet 查找专有名词

Question

有没有办法使用 NLTK WordNet 找到专有名词？即，我可以使用 nltk Wordnet 标记所有格名词吗？

score 57 · Accepted Answer

我认为您不需要 WordNet 来查找专有名词，我建议使用 Part-Of-Speech tagger pos_tag。

要查找专有名词，请查找NNP标签：

from nltk.tag import pos_tag

sentence = "Michael Jackson likes to eat at McDonalds"
tagged_sent = pos_tag(sentence.split())
# [('Michael', 'NNP'), ('Jackson', 'NNP'), ('likes', 'VBZ'), ('to', 'TO'), ('eat', 'VB'), ('at', 'IN'), ('McDonalds', 'NNP')]

propernouns = [word for word,pos in tagged_sent if pos == 'NNP']
# ['Michael','Jackson', 'McDonalds']

您可能不太满意，因为Michael它Jackson被分成 2 个标记，那么您可能需要更复杂的东西，例如名称实体标记器。

正确地，正如标签集所记录的penntreebank，对于所有格名词，您可以简单地查找POS标签http://www.mozart-oz.org/mogul/doc/lager/brill-tagger/penn.html。但是POS当它是一个NNP.

要查找所有格名词，请查找 str.endswith("'s") 或 str.endswith("s'")：

from nltk.tag import pos_tag

sentence = "Michael Jackson took Daniel Jackson's hamburger and Agnes' fries"
tagged_sent = pos_tag(sentence.split())
# [('Michael', 'NNP'), ('Jackson', 'NNP'), ('took', 'VBD'), ('Daniel', 'NNP'), ("Jackson's", 'NNP'), ('hamburger', 'NN'), ('and', 'CC'), ("Agnes'", 'NNP'), ('fries', 'NNS')]

possessives = [word for word in sentence if word.endswith("'s") or word.endswith("s'")]
# ["Jackson's", "Agnes'"]

或者，您可以使用 NLTK ne_chunk，但它似乎并没有做太多其他事情，除非您担心从句子中得到什么样的专有名词：

>>> from nltk.tree import Tree; from nltk.chunk import ne_chunk
>>> [chunk for chunk in ne_chunk(tagged_sent) if isinstance(chunk, Tree)]
[Tree('PERSON', [('Michael', 'NNP')]), Tree('PERSON', [('Jackson', 'NNP')]), Tree('PERSON', [('Daniel', 'NNP')])]
>>> [i[0] for i in list(chain(*[chunk.leaves() for chunk in ne_chunk(tagged_sent) if isinstance(chunk, Tree)]))]
['Michael', 'Jackson', 'Daniel']

使用ne_chunk有点冗长，它不会让你拥有所有格。

score 3 · Accepted Answer

我认为你需要的是一个标注器，一个词性标注器。该工具为句子中的每个单词分配一个词性标签（例如，专有名词、所有格代词等）。

NLTK包括一些标记器：http: //nltk.org/book/ch05.html

还有斯坦福词性标注器（也是开源的，性能更好）。

python - 使用 NLTK WordNet 查找专有名词

2 回答 2

Related

Reference