4

我正在查看 Stanford CoreNLP 以了解 NER 和 POS 标记。但是,如果我想为实体创建自定义标签,例如<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>我该怎么做?CoreNLP 在这种情况下有用吗?

4

2 回答 2

4

开箱即用的 CoreNLP 将仅限于他们提到的类型:PERSON、LOCATION、ORGANIZATION、MISC、DATE、TIME、MONEY、NUMBER。不,仅仅假设它可以“直观地”做到这一点,您将无法识别其他实体:)

在实践中,您必须选择:

  1. 查找另一个标记这些类型的 NER 系统
  2. 使用基于知识/无监督的方法解决此标记任务。
  3. 搜索包含您想要识别的类型的额外资源(语料库),并重新训练有监督的 NER 系统(CoreNLP 或其他)
  4. 构建(并可能注释)您自己的资源 - 然后您必须定义注释方案、规则等 - 工作中非常有趣的部分!

事实上,除非您找到满足您需求的现有系统,否则需要付出一些努力!无监督方法可以帮助您引导系统,以便查看您是否需要查找/注释专用语料库。在后一种情况下,最好将数据分离为训练/开发/测试部分,以便能够评估生成的系统对看不见的数据执行了多少。

于 2014-01-26T09:04:55.687 回答
1

查看此常见问题解答 ( http://nlp.stanford.edu/software/crf-faq.shtml ) 以使用 CRF 分类器为新类训练模型。您可能会发现它很有用。

于 2016-06-08T18:44:45.107 回答