python - 如何使用 CRFSuite 为 CRF 模型准备训练语料库

Question

我需要以下格式的数据

(u'Melbourne', u'NP', u'B-LOC'),
 (u'(', u'Fpa', u'O'),
 (u'Australia', u'NP', u'B-LOC'),
 (u')', u'Fpt', u'O'),
 (u',', u'Fc', u'O'),

我所拥有的只是 txt 文件，我需要这些数据用于 NER 任务的 CRF 模型。我打算为 python 使用 crf 套件，但不太了解如何标记训练数据。我可以对它进行 pos-tag，但是如何添加命名实体，因为我需要使用 2 个自定义标签来标记训练数据。

score 3 · Accepted Answer

如果要训练 CRF 模型，则需要带注释的数据；对于某些任务，可以依赖现有的语料库，但如果您的任务是新的，那么您必须自己注释实体。有一些工具可以提供帮助，例如查看http://brat.nlplab.org/。GATE还内置了注释工具。

POS 标签通常用作特征，但并非严格要求（您也应该使用许多其他特征）。

score 1 · Accepted Answer

Location如果您想使用不同的实体而不是仅或实体创建自己的训练数据，Person那么您可以参考我的回答是否可以训练斯坦福 NER 系统来识别更多命名实体类型？

score 1 · Accepted Answer

Brat 是注释新数据集的绝佳方式。在对其进行注释之后，需要将 Brat 输出的 Standoff 格式转换为 Stanford NER 接受的格式。

3 回答 3