5

我正在构建一个带有条件随机字段的命名实体识别器,并且正在寻找两件事:

A) 用于人员、位置和组织实体的开源英语 NER 数据集

B) 英语 NER 特征列表

我已经查看了 CoNLL-2003 语料库,发现这正是我想要的,但它并不容易获得。我未能成功找到 NER 特征列表;我试图避免手工设计这些功能。

谢谢

4

2 回答 2

2

您将在Ratinov & Roth的这篇论文中找到关于 NER 所需内容的总结且内容丰富的研究。此外,他们的系统是完全开源的,包括从维基百科收集的命名实体列表。

于 2013-12-15T21:55:22.190 回答
1

A) 除了 MUC 语料库,您还应该在此处查看手动注释的子语料库:http: //www.americannationalcorpus.org/MASC/About.html它是免费的,并且具有各种文档类型。它带有用于解析 NLTK、GATE 和 UIMA 格式的工具:http ://www.anc.org/MASC/Download

B)这是一个非常笼统的问题。您可以尝试 n-gram、单词大写、使用字符串作为特征、词性等。您可以从阅读斯坦福解析器方法与 CRF 开始:http://nlp .stanford.edu/software/CRF-NER.shtml

于 2013-03-12T12:17:56.560 回答