使用en_core_web_lg模型时,PROPN 的 POS 标记无法以预期的方式工作。
POS 标记使用_md模型更可预测。
给定(格式不正确的)句子: “CK7、CK-20、GATA 3、PSA,都是否定的。”
使用 _lg 模型时,“CK7”被标记为 NOUN(NNS)。
使用 _md 模型时,“CK7”被标记为 PROPN(NNP)。这是对的。
使用_lg模型时,将句子中的“CK7”替换为:
“CK1”标记为 PROPN
“CK2”标记为 PROPN
标记为 PROPN 的“CK3”、“CK4”
“CK5”标记为ADJ
“CK6”标记为 PROPN
“CK7”标记为名词
“CK8”标记为 PROPN
“CK9”标记为ADP
“CK22”,“CK222”,标记为 PROPN
当使用_md模型并如上所述替换“CK7”时,所有都被标记为 PROPN,正如预期的那样。
由于我将要分析的大多数句子的格式都不好,我认为_lg模型的“更深”的依赖解析会更好,只是发现了POS tagging的上述问题。
请就以下事项提出建议:
- 使用 en_core_web_lg 模型时如何处理反直觉的词性标注?
- 哪种模型最适合依赖解析格式不佳的句子?
非常感谢。