nltk - 用于命名实体识别的免费标记语料库

Question

我正在寻找一个免费的标记语料库，用于训练命名实体识别的系统。我发现的大多数（比如纽约时报）都很贵而且不开放。任何人都可以帮忙吗？

score 6 · Accepted Answer

该列表中的 CoNLL 2003 语料库是免费的，可从 http://www.cnts.ua.ac.be/conll2003/ner/（注释）和 NIST（文本）获得。

score 2 · Accepted Answer

Python NLTK可以访问nltk.corpus.conll2000语料库。调用conll2000.iob_words()返回（单词、词性、IOB）三元组列表，其中 IOB 是内部实体/外部实体/实体开始格式的标记。

在新闻专线式的上下文中，总共有大约 250k 个单词。

score 1 · Accepted Answer

dbPedia是开放且免费的

dbPedia 是从 WikiPedia 构建的，它是一个非常大的语料库。rdfs:label在涉及所有dbPedia 标题转储的三元组上构建 Lucene 索引。

3 回答 3