我正在构建一个带有条件随机字段的命名实体识别器,并且正在寻找两件事:
A) 用于人员、位置和组织实体的开源英语 NER 数据集
B) 英语 NER 特征列表
我已经查看了 CoNLL-2003 语料库,发现这正是我想要的,但它并不容易获得。我未能成功找到 NER 特征列表;我试图避免手工设计这些功能。
谢谢
我正在构建一个带有条件随机字段的命名实体识别器,并且正在寻找两件事:
A) 用于人员、位置和组织实体的开源英语 NER 数据集
B) 英语 NER 特征列表
我已经查看了 CoNLL-2003 语料库,发现这正是我想要的,但它并不容易获得。我未能成功找到 NER 特征列表;我试图避免手工设计这些功能。
谢谢
您将在Ratinov & Roth的这篇论文中找到关于 NER 所需内容的总结且内容丰富的研究。此外,他们的系统是完全开源的,包括从维基百科收集的命名实体列表。
A) 除了 MUC 语料库,您还应该在此处查看手动注释的子语料库:http: //www.americannationalcorpus.org/MASC/About.html它是免费的,并且具有各种文档类型。它带有用于解析 NLTK、GATE 和 UIMA 格式的工具:http ://www.anc.org/MASC/Download
B)这是一个非常笼统的问题。您可以尝试 n-gram、单词大写、使用字符串作为特征、词性等。您可以从阅读斯坦福解析器方法与 CRF 开始:http://nlp .stanford.edu/software/CRF-NER.shtml