0

我正在用 Python Flair 训练一个顺序标记模型。我的原始文本数据包含我希望模型能够识别的概念短语,这些概念短语在某些情况下由一组不连续的标记表示,中间有单词。一个例子是“钾和镁替代”,其中“钾替代”是一个由不连续标记表示的概念,“镁替代”是另一个连续但与第一个概念重叠的概念。我训练了另一个 Flair 模型,其中所有概念都可以用一个标记来表示,并且为该数据构建语料库 CoNLL 文件非常简单。在这种情况下,不连续和重叠的概念带来了 3 个问题:

  1. 如果我在 CoNLL 文件中将其适当地标记为:

“镁B-CONC1

替换 I-CONC1"

  1. 它是否将不连续概念识别为上述短语中的“钾替代”:

"钾 B-CONC2

和 O

镁O

替换 I-CONC2"

  1. 如何在 CoNLL 文件中表示重叠的概念?有没有用原始文本和开始/结束索引列表表示语料库的替代方法?

PS 在上下文中必须非常清楚,但是对于单词概念,我的意思是我试图训练模型识别的单个或多个标记标签/术语。

感谢您的建议或信息

4

1 回答 1

0

Flair 不支持不连续和重叠的注释。在https://github.com/zalandoresearch/flair/issues/824#issuecomment-504322361上查看更多信息

于 2019-06-24T22:32:17.537 回答