5

我一直在使用spaCy Python 包来解析和标记文本,并使用生成的依赖树和其他属性来获取含义。现在我想使用 SyntaxNet 的 Parsey McParseface 进行解析和依赖标记(这似乎更好),但我想继续使用 spaCy API,因为它非常易于使用并且它可以做很多 Parsey 没有做的事情。SyntaxNet 以 CoNLL 格式输出 POS 标签和依赖标签/树:

  1. Bob _ NOUN NNP _ 2 nsubj _ _
  2. 带来 _ VERB VBD _ 0 ROOT _ _
  3. _ DET DT _ 4 检测 _ _
  4. 比萨饼_名词NN _ 2 dobj _ _
  5. 到 _ ADP IN _ 2 准备 _ _
  6. Alice _ NOUN NNP _ 5 pobj _ _
  7. . _ . . _ 2 点 _ _

并且 spaCy 似乎能够在这里读取 CoNLL 格式。但我不知道在 spaCy 的 API 中哪里需要一个 CoNLL-fromatted 字符串。

4

3 回答 3

3

来自spaCy 博客

显然,我们希望在 Parsey McParseface 和 spaCy 之间架起一座桥梁,以便您可以使用更准确的模型和更甜美的 spaCy API。

然而,在这成为可能之前,似乎还有很多工作要做。

另请参阅 spaCy 作者的回复

于 2016-06-27T16:56:20.983 回答
1

有没有人设法让 SyntaxNet 作为服务运行?将注释加载到 spaCy 中没有问题。问题是 SyntaxNet 主要是一个研究系统,它足以满足实验需要从磁盘对批量文本进行操作。

如果您满足从磁盘读取,那么应该没有问题 --- 只需以 CoNLL 格式读取,然后您可以将注释应用于 spaCy Doc 对象。

于 2016-10-24T10:29:58.263 回答
1

我没有尝试使用 spaCy,但我设法在 Python NLTK 的类/结构中使用 SyntaxNet 的输出,例如 DependencyGraph 和 Tree。

这是一个完整的例子:

http://www.davidsbatista.net/blog/2017/03/25/syntaxnet/

于 2017-04-04T19:09:39.143 回答