我已经下载了 Conll 2003 语料库(“eng.train”)。我想用它来使用 python crfsuite 训练来提取实体。但我不知道如何加载这个文件进行训练。
我找到了这个例子,但它不适用于英语。
train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))
同样在未来,我想培训 POS 或位置以外的新实体。我该如何添加这些。
还请建议如何处理多个单词。