0

我需要以下格式的数据

(u'Melbourne', u'NP', u'B-LOC'),
 (u'(', u'Fpa', u'O'),
 (u'Australia', u'NP', u'B-LOC'),
 (u')', u'Fpt', u'O'),
 (u',', u'Fc', u'O'),

我所拥有的只是 txt 文件,我需要这些数据用于 NER 任务的 CRF 模型。我打算为 python 使用 crf 套件,但不太了解如何标记训练数据。我可以对它进行 pos-tag,但是如何添加命名实体,因为我需要使用 2 个自定义标签来标记训练数据。

4

3 回答 3

3

如果要训练 CRF 模型,则需要带注释的数据;对于某些任务,可以依赖现有的语料库,但如果您的任务是新的,那么您必须自己注释实体。有一些工具可以提供帮助,例如查看http://brat.nlplab.org/GATE还内置了注释工具。

POS 标签通常用作特征,但并非严格要求(您也应该使用许多其他特征)。

于 2016-12-05T13:32:03.747 回答
1

Location如果您想使用不同的实体而不是仅或实体创建自己的训练数据,Person那么您可以参考我的回答是否可以训练斯坦福 NER 系统来识别更多命名实体类型?

于 2016-12-13T11:21:46.103 回答
1

Brat 是注释新数据集的绝佳方式。在对其进行注释之后,需要将 Brat 输出的 Standoff 格式转换为 Stanford NER 接受的格式。

于 2017-07-28T20:15:16.920 回答