python - 使用 spacy 偏移格式构建 GoldDoc 以使用 CLI 训练空白模型

Question

我目前正在使用 3 个标签进行 NER：

我可以使用 python 代码训练我的模型，但我想使用 CLI 训练来提供更大的灵活性。

我已将我的数据转换为 spacy 偏移训练格式，如下所示：

[
    ["Bonjour\r\n\r\n\r\n\r\ncordialement, Thomas\r\n\r\n tel 0102030405",{"entities": [[70,79,"PHONE"],[56,61,"PER"]]}]
]

为了使用 CLI 训练/评估我的模型，我需要将这些数据转换为 Gold 格式。

我已经知道以下方法，但它需要使用现有的 nlp：

doc = nlp(text)
tags = biluo_tags_from_offsets(doc, offsets)

我的问题是： 如果我需要创建具有特定标签的模型，如何将 spacy 偏移转换为黄金。

score 0 · Accepted Answer

您只需要这里的模型进行标记化和句子分割，所以它也可以说：

from spacy.lang.en import English
nlp = English()
nlp.add_pipe(nlp.create_pipe("sentencizer"))

1 回答 1