我正在使用 Spacy 创建印度尼西亚 NER 模型。我正在使用来自https://raw.githubusercontent.com/yohanesgultom/nlp-experiments/master/data/ner/training_data.txt的训练数据
以上训练数据使用此标签格式:
Sementara itu Pengamat Pasar Modal <ENAMEX TYPE="PERSON">Dandossi Matram</ENAMEX> mengatakan,
我想将此训练数据转换为 Spacy 格式,即:
[('Sementara itu Pengamat Pasar Modal Dandossi Matram mengatakan,',{"entities:"([35, 51, 'PERSON'])})]
我还是 Python 库的新手,知道如何转换火车数据吗?或者任何想法使用哪个库?
谢谢你。