0

我正在处理命名实体识别 (NER) 任务,实体以 BRAT 格式 (.txt + .ann) 进行注释。在使用我的模型之前,我已经实现了一些正则表达式来清理文本,但是如果我修改文本,我必须对齐实体的注释偏移量。这个任务相对简单,在此之后,我可以使用我的 NLP 模型对不同的实体类进行分类。然而,一旦我得到模型的分类,我需要重新对齐原始文本中识别的实体,即将清理后的文本的偏移量更改为我使用正则表达式之前的偏移量。有没有办法在清理文本后跟踪原始偏移量?

4

0 回答 0