python - 荷兰语 NLTK 命名实体识别

Question

我正在尝试从荷兰语文本中提取命名实体。我使用nltk-trainer在 conll2002 荷兰语语料库上训练一个标注器和一个分块器。但是，来自分块器的 parse 方法没有检测到任何命名实体。这是我的代码：

str = 'Christiane heeft een lam.'

tagger = nltk.data.load('taggers/dutch.pickle')
chunker = nltk.data.load('chunkers/dutch.pickle')

str_tags = tagger.tag(nltk.word_tokenize(str))
print str_tags

str_chunks = chunker.parse(str_tags)
print str_chunks

这个程序的输出：

[('Christiane', u'N'), ('heeft', u'V'), ('een', u'Art'), ('lam', u'Adj'), ('.', u'Punc')]
(S Christiane/N heeft/V een/Art lam/Adj ./Punc)

我期待 Christiane 被检测为命名实体。有什么帮助吗？

score 7 · Accepted Answer

语料库有西班牙语和荷兰语文本，因此conll2002您应该确保使用fileids参数，如python train_chunker.py conll2002 --fileids ned.train. 西班牙语和荷兰语的培训效果都不佳。

默认算法是基于 Tagger 的 Chunker，在 conll2002 上效果不佳。相反，使用像 NaiveBayes 这样的基于分类器的分块器，所以完整的命令可能看起来像这样（我已经确认生成的分块器确实将“Christiane”识别为“PER”）：

python train_chunker.py conll2002 --fileids ned.train --classifier NaiveBayes --filename ~/nltk_data/chunkers/conll2002_ned_NaiveBayes.pickle

python - 荷兰语 NLTK 命名实体识别

1 回答 1

Related

Reference