我正在用 Python Flair 训练一个顺序标记模型。我的原始文本数据包含我希望模型能够识别的概念短语,这些概念短语在某些情况下由一组不连续的标记表示,中间有单词。一个例子是“钾和镁替代”,其中“钾替代”是一个由不连续标记表示的概念,“镁替代”是另一个连续但与第一个概念重叠的概念。我训练了另一个 Flair 模型,其中所有概念都可以用一个标记来表示,并且为该数据构建语料库 CoNLL 文件非常简单。在这种情况下,不连续和重叠的概念带来了 3 个问题:
- 如果我在 CoNLL 文件中将其适当地标记为:
“镁B-CONC1
替换 I-CONC1"
- 它是否将不连续概念识别为上述短语中的“钾替代”:
"钾 B-CONC2
和 O
镁O
替换 I-CONC2"
- 如何在 CoNLL 文件中表示重叠的概念?有没有用原始文本和开始/结束索引列表表示语料库的替代方法?
PS 在上下文中必须非常清楚,但是对于单词概念,我的意思是我试图训练模型识别的单个或多个标记标签/术语。
感谢您的建议或信息