我正在寻找一个免费的标记语料库,用于训练命名实体识别的系统。我发现的大多数(比如纽约时报)都很贵而且不开放。任何人都可以帮忙吗?
问问题
10505 次
3 回答
6
在http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html有一个语料库列表
该列表中的 CoNLL 2003 语料库是免费的,可从 http://www.cnts.ua.ac.be/conll2003/ner/(注释)和 NIST(文本)获得。
于 2012-07-12T20:42:24.897 回答
2
Python NLTK可以访问nltk.corpus.conll2000
语料库。调用conll2000.iob_words()
返回(单词、词性、IOB)三元组列表,其中 IOB 是内部实体/外部实体/实体开始格式的标记。
在新闻专线式的上下文中,总共有大约 250k 个单词。
于 2011-03-20T23:00:12.130 回答
1
dbPedia是开放且免费的
dbPedia 是从 WikiPedia 构建的,它是一个非常大的语料库。rdfs:label
在涉及所有dbPedia 标题转储的三元组上构建 Lucene 索引。
于 2010-07-25T17:35:23.477 回答