10

我正在尝试从非常小的文本(如 sms)中提取专有名词,如名称和组织名称中的专有名词,nltk 可用的基本解析器使用 NLTK WordNet 查找专有名词能够获取名词,但问题是当我们得到专有名词时以大写字母开头,对于这样的文本,像 sumit 这样的名称不会被识别为专有名词

>>> sentence = "i spoke with sumit and rajesh and Samit about the gridlock situation last night @ around 8 pm last nite"
>>> tagged_sent = pos_tag(sentence.split())
>>> print tagged_sent
[('i', 'PRP'), ('spoke', 'VBP'), ('with', 'IN'), **('sumit', 'NN')**, ('and', 'CC'), ('rajesh', 'JJ'), ('and', 'CC'), **('Samit', 'NNP'),** ('about', 'IN'), ('the', 'DT'), ('gridlock', 'NN'), ('situation', 'NN'), ('last', 'JJ'), ('night', 'NN'), ('@', 'IN'), ('around', 'IN'), ('8', 'CD'), ('pm', 'NN'), ('last', 'JJ'), ('nite', 'NN')]
4

3 回答 3

9

有一种更好的方法来提取人员和组织的名称

from nltk import pos_tag, ne_chunk
from nltk.tokenize import SpaceTokenizer

tokenizer = SpaceTokenizer()
toks = tokenizer.tokenize(sentence)
pos = pos_tag(toks)
chunked_nes = ne_chunk(pos) 

nes = [' '.join(map(lambda x: x[0], ne.leaves())) for ne in chunked_nes if isinstance(ne, nltk.tree.Tree)]

但是,所有命名实体识别器都会出错。如果您真的不想错过任何专有名称,则可以使用专有名称的字典并检查该名称是否包含在字典中。

于 2013-10-21T12:57:58.247 回答
2

您可能想看看python-nameparser。它还尝试猜测名称的大小写。很抱歉答案不完整,但我没有太多使用 python-nameparser 的经验。

祝你好运!

于 2013-10-21T18:58:47.927 回答
0

试试这个代码

def get_entities(self,args):
    qry = "who is Mahatma Gandhi"
    tokens = nltk.tokenize.word_tokenize(qry)
    pos = nltk.pos_tag(tokens)
    sentt = nltk.ne_chunk(pos, binary = False)
    print sentt
    person = []
    for subtree in sentt.subtrees(filter=lambda t: t.node == 'PERSON'):
        for leave in subtree.leaves():
            person.append(leave)
    print "person=", person

您可以借助此 ne_chunk() 函数获取人员、组织、位置的名称。希望能帮助到你。谢谢

于 2013-10-24T06:53:35.827 回答