stanford-nlp - 制作斯坦福 Ner CRF 训练数据的约定

Question

我必须制作一个很好的基于 NER CRF 的模型。我的目标是一个广阔的领域，我的目标类总数是 17 个。我还制作了一组很好的功能集（austen.prop），通过大量实验应该对我有用。NER没有产生好的结果。我需要知道NER 的局限性，它是基于训练数据大小等上下文的 CRF。

我进行了很多搜索，但直到现在我都找不到在制作训练数据时应该遵循的约定。

（注意：我完全知道如何制作模型和使用它，我只需要知道是否有任何约定，每个目标类应该存在一定比例等）

如果有人能指导我，我会很感激你。

score 0 · Accepted Answer

对于英语，标准训练数据集是 CoNLL 2003，它有 15,000 个标记句子，用于 4 个类别（ORG、PERSON、LOCATION、MISC）。

1 回答 1