我目前正在使用 3 个标签进行 NER:
- 人
- 电话
- 地址
我可以使用 python 代码训练我的模型,但我想使用 CLI 训练来提供更大的灵活性。
我已将我的数据转换为 spacy 偏移训练格式,如下所示:
[
["Bonjour\r\n\r\n\r\n\r\ncordialement, Thomas\r\n\r\n tel 0102030405",{"entities": [[70,79,"PHONE"],[56,61,"PER"]]}]
]
为了使用 CLI 训练/评估我的模型,我需要将这些数据转换为 Gold 格式。
我已经知道以下方法,但它需要使用现有的 nlp:
doc = nlp(text)
tags = biluo_tags_from_offsets(doc, offsets)
我的问题是: 如果我需要创建具有特定标签的模型,如何将 spacy 偏移转换为黄金。