我正在尝试从荷兰语文本中提取命名实体。我使用nltk-trainer在 conll2002 荷兰语语料库上训练一个标注器和一个分块器。但是,来自分块器的 parse 方法没有检测到任何命名实体。这是我的代码:
str = 'Christiane heeft een lam.'
tagger = nltk.data.load('taggers/dutch.pickle')
chunker = nltk.data.load('chunkers/dutch.pickle')
str_tags = tagger.tag(nltk.word_tokenize(str))
print str_tags
str_chunks = chunker.parse(str_tags)
print str_chunks
这个程序的输出:
[('Christiane', u'N'), ('heeft', u'V'), ('een', u'Art'), ('lam', u'Adj'), ('.', u'Punc')]
(S Christiane/N heeft/V een/Art lam/Adj ./Punc)
我期待 Christiane 被检测为命名实体。有什么帮助吗?