1

我正在做一个项目来训练分类器来识别文本中的引用。我们正在处理的引文往往非常杂乱无章。以下是一些示例引用:

  • 见 A 册第 3 章第 7 段
  • 见 A 册第 3 章第 7 段
  • 见 A 卷第 7 段“某章标题”一章

我们已经确定了少数倾向于出现在这些引用中的实体。例如“书名”、“章号”、“章名”、“段号”。

该项目分为两个阶段:

  1. 文本中引文的二进制分类
  2. 引文内引文实体的分类

Spacy(我们正在使用 v3)是否有可能拥有两个连续的 NER 管道?我希望分类器首先标记引文,然后再标记每个引文中的实体。

我能够使用以下代码实例化具有两个 NER 管道的模型:

from spacy.lang.en import English
nlp = English()
nlp.add_pipe("ner", name="ner1", last=True)
ner1 = nlp.get_pipe("ner1")
ner1.add_label("Citation")
nlp.add_pipe("ner", name="ner2", last=True)
ner2 = nlp.get_pipe("ner2")
for label in ["Book Title", "Chapter Number", "Chapter Name", "Paragraph Number"]:
    ner2.add_label(label)

我的问题是如何分别训练每个 NER 管道。通常,Spacy 需要以下形状的数据来训练 NER:

{
    "text": <TEXT>,
    "spans": [<LIST OF NAMED ENTITY SPANS>]
}

如何区分训练数据中每个管道的数据?

4

1 回答 1

2

这有几个部分。

  1. 您可以在一个 spaCy 管道中拥有两个 NER 组件,但由于问题 2 和 3,这不会按您希望的方式工作。
  2. 在下游组件的训练期间,管道无法设置注释。这是一个正在解决的限制,应该尽快解决。
  3. NER 注释不能重叠。这是一个设计决定,不会很快改变。它可以使用自定义组件来解决,但它是额外的工作。

我希望分类器首先标记引文,然后再标记每个引文中的实体。

您真的需要单独使用整个引文标签,还是出于某种原因将其设计为两阶段过程以提高性能?如果是后者,我会先尝试训练第二阶段的详细注释,看看你是否真的有问题;我怀疑一个两阶段的过程实际上会让事情变得更容易。

如果您确实需要整个“引用”,那么您可以将详细实体的链提取到一个跨度中,不需要为此创建单独的模型。

我建议您仔细查看文档中关于组合模型和规则的部分。它有一些例子,比如扩展个人姓名以包括像 Mr. 或 Dr. 这样的头衔,或者使用依赖解析信息,这似乎适用于您的问题。

于 2021-04-26T04:36:24.220 回答