4

我已阅读有关连续性解析器和依赖解析器的信息。但困惑这可能是最好的选择。

我的任务是从英文维基百科文本中提取关系(以后也可能包括其他来源)。我需要的是两个有趣的实体之间的语义路径(只有最重要的信息)。例如,

格式文本: “在美国,众所周知,糖尿病是一种常见病。”

我需要信息: “糖尿病就是疾病”

你会建议哪种解析器实现?斯坦福?麦芽解析器?或其他?

任何线索表示赞赏。

4

2 回答 2

4

您的意思是语法解析器与依赖解析器?在线斯坦福解析器向您展示了这些解析的不同之处。

句法分析

(ROOT
  (S
    (PP (IN In)
      (NP (NNP America)))
    (, ,)
    (NP (NNP diabetes))
    (VP (VBZ is) (, ,)
      (PP (IN as)
        (NP (NN everybody) (NNS knows)))
      (, ,)
      (NP (DT a) (JJ common) (NN disease)))))

依赖解析(折叠)

prep_in(disease-13, America-2)
nsubj(disease-13, diabetes-4)
cop(disease-13, is-5)
nn(knows-9, everybody-8)
prep_as(disease-13, knows-9)
det(disease-13, a-11)
amod(disease-13, common-12)
root(ROOT-0, disease-13)

它们实际上并没有那么不同(有关更多详细信息,请参见 Collins 的论文或 Nieve 的书),但我发现依赖解析更易于使用。如您所见,您与糖尿病 -> 疾病有直接关系。然后你可以连接系词。

于 2012-06-20T17:14:31.130 回答
4

当然,像斯坦福依赖解析器这样的依赖解析器将是您的正确选择。我建议使用BLLIP reranking parserDavid McClosky 的生物医学模型来获取短语结构,然后使用Stanford Dependencies转换为依赖项。这样,您将获得更好的生物医学文本依赖树/图。

于 2012-08-28T23:59:23.053 回答