我正在查看 Stanford CoreNLP 以了解 NER 和 POS 标记。但是,如果我想为实体创建自定义标签,例如<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>
我该怎么做?CoreNLP 在这种情况下有用吗?
问问题
2262 次
2 回答
4
开箱即用的 CoreNLP 将仅限于他们提到的类型:PERSON、LOCATION、ORGANIZATION、MISC、DATE、TIME、MONEY、NUMBER。不,仅仅假设它可以“直观地”做到这一点,您将无法识别其他实体:)
在实践中,您必须选择:
- 查找另一个标记这些类型的 NER 系统
- 使用基于知识/无监督的方法解决此标记任务。
- 搜索包含您想要识别的类型的额外资源(语料库),并重新训练有监督的 NER 系统(CoreNLP 或其他)
- 构建(并可能注释)您自己的资源 - 然后您必须定义注释方案、规则等 - 工作中非常有趣的部分!
事实上,除非您找到满足您需求的现有系统,否则需要付出一些努力!无监督方法可以帮助您引导系统,以便查看您是否需要查找/注释专用语料库。在后一种情况下,最好将数据分离为训练/开发/测试部分,以便能够评估生成的系统对看不见的数据执行了多少。
于 2014-01-26T09:04:55.687 回答
1
查看此常见问题解答 ( http://nlp.stanford.edu/software/crf-faq.shtml ) 以使用 CRF 分类器为新类训练模型。您可能会发现它很有用。
于 2016-06-08T18:44:45.107 回答