我一直在使用spaCy Python 包来解析和标记文本,并使用生成的依赖树和其他属性来获取含义。现在我想使用 SyntaxNet 的 Parsey McParseface 进行解析和依赖标记(这似乎更好),但我想继续使用 spaCy API,因为它非常易于使用并且它可以做很多 Parsey 没有做的事情。SyntaxNet 以 CoNLL 格式输出 POS 标签和依赖标签/树:
- Bob _ NOUN NNP _ 2 nsubj _ _
- 带来 _ VERB VBD _ 0 ROOT _ _
- _ DET DT _ 4 检测 _ _
- 比萨饼_名词NN _ 2 dobj _ _
- 到 _ ADP IN _ 2 准备 _ _
- Alice _ NOUN NNP _ 5 pobj _ _
- . _ . . _ 2 点 _ _
并且 spaCy 似乎能够在这里读取 CoNLL 格式。但我不知道在 spaCy 的 API 中哪里需要一个 CoNLL-fromatted 字符串。