0

我必须制作一个很好的基于 NER CRF 的模型。我的目标是一个广阔的领域,我的目标类总数是 17 个。我还制作了一组很好的功能集(austen.prop),通过大量实验应该对我有用。NER没有产生好的结果。我需要知道NER 的局限性,它是基于训练数据大小等上下文的 CRF。

我进行了很多搜索,但直到现在我都找不到在制作训练数据时应该遵循的约定。

(注意:我完全知道如何制作模型和使用它,我只需要知道是否有任何约定,每个目标类应该存在一定比例等)

如果有人能指导我,我会很感激你。

4

1 回答 1

0

对于英语,标准训练数据集是 CoNLL 2003,它有 15,000 个标记句子,用于 4 个类别(ORG、PERSON、LOCATION、MISC)。

于 2016-03-07T15:38:35.200 回答