nlp - 命名实体识别数据和特征

Question

我正在构建一个带有条件随机字段的命名实体识别器，并且正在寻找两件事：

A) 用于人员、位置和组织实体的开源英语 NER 数据集

B) 英语 NER 特征列表

我已经查看了 CoNLL-2003 语料库，发现这正是我想要的，但它并不容易获得。我未能成功找到 NER 特征列表；我试图避免手工设计这些功能。

谢谢

score 2 · Accepted Answer

您将在Ratinov & Roth的这篇论文中找到关于 NER 所需内容的总结且内容丰富的研究。此外，他们的系统是完全开源的，包括从维基百科收集的命名实体列表。

score 1 · Accepted Answer

A) 除了 MUC 语料库，您还应该在此处查看手动注释的子语料库：http: //www.americannationalcorpus.org/MASC/About.html它是免费的，并且具有各种文档类型。它带有用于解析 NLTK、GATE 和 UIMA 格式的工具：http ://www.anc.org/MASC/Download

B）这是一个非常笼统的问题。您可以尝试 n-gram、单词大写、使用字符串作为特征、词性等。您可以从阅读斯坦福解析器方法与 CRF 开始：http://nlp .stanford.edu/software/CRF-NER.shtml

2 回答 2