我想将 spaCy 用于实体链接 (EL)。我已经在我的领域特定语料库上训练了一个带有自定义标签的 spaCy 命名实体识别 (NER) 模型。但是,我下面的示例将使用常规实体标签 PERSON 和 LOCATION。
在知识库 (KB) 中设置别名,KB 返回已识别实体出现的候选,例如“巴黎”的候选可以是 Wikidata 条目 Q47899 (Paris Hilton)、Q7137357 (Paris Themmen)、Q5214166 (Dan Paris)、Q90 (法国首都巴黎)或 Q830149(美国德克萨斯州拉马尔县县城巴黎)。
我的问题涉及公认的实体标签。如果 NER 将“Paris”识别为 PERSON,则从候选人中排除 Q90(法国首都巴黎)和 Q830149(美国德克萨斯州拉马尔县县城),剩下 3 个候选人。而如果“巴黎”被识别为 LOCATION,则只有其他 2 个候选者。
给定检测到的 NER 标签,是否可以以某种方式建议 KB 或 EL 模型从哪一组实体中选择候选者?在训练 EL 模型之前还是之后?