2
  • 使用en_core_web_lg模型时,PROPN 的 POS 标记无法以预期的方式工作。

  • POS 标记使用_md模型更可预测。

给定(格式不正确的)句子: “CK7、CK-20、GATA 3、PSA,都是否定的。”

使用 _lg 模型时,“CK7”被标记为 NOUN(NNS)。

使用 _md 模型时,“CK7”被标记为 PROPN(NNP)。这是对的。

使用_lg模型时,将句子中的“CK7”替换为:

  • “CK1”标记为 PROPN

  • “CK2”标记为 PROPN

  • 标记为 PROPN 的“CK3”、“CK4”

  • “CK5”标记为ADJ

  • “CK6”标记为 PROPN

  • “CK7”标记为名词

  • “CK8”标记为 PROPN

  • “CK9”标记为ADP

  • “CK22”,“CK222”,标记为 PROPN

当使用_md模型并如上所述替换“CK7”时,所有都被标记为 PROPN,正如预期的那样

由于我将要分析的大多数句子的格式都不好,我认为_lg模型的“更深”的依赖解析会更好,只是发现了POS tagging的上述问题。

请就以下事项提出建议:

  1. 使用 en_core_web_lg 模型时如何处理反直觉的词性标注?
  2. 哪种模型最适合依赖解析格式不佳的句子?

非常感谢。

4

1 回答 1

2

因此,这不是您问题的直接答案,但如果您正在处理生物医学数据,那么尝试这个软件包可能是有意义的: scispacy

它没有将 CK-7 标记为专有名词,但它可以将许多此类术语作为实体处理,请参阅支持不同标签集的各种附加 NER 模型。它仍在开发中,您可能仍需要为您的数据添加特殊情况/例外,但我认为您会看到比使用标准 spacy 模型更好、更一致的结果。

于 2019-04-08T09:56:53.663 回答