parsing - 尝试使用 HPSG PET 解析器

Question

您好我正在尝试使用PET解析器，但提供的使用文档不足。谁能给我指出一篇关于使用 PET 的好文章或教程？它支持 utf-8 吗？

score 11 · Accepted Answer

要使用 PET 解析器，首先您必须为感兴趣的语言加载语法。语法必须使用 TDL 语言编写，如DELPH-IN 联盟（此处的 wiki）中使用的那样。大型、兼容的语法可用于多种语言，包括英语、日语和德语。还有一些较小的语法可用，您可以自己编写。

为此——以及使用这些语法——你最好的选择是 Ann Copestake 的书，“实现类型化特征结构语法”（CSLI 2002）。本书全面介绍了 TDL 和诸如此类通过统一类型化特征结构发挥作用的语法。语法支持语法（表面字符串）和语义（“含义”，根据 Copestake 的 MRS--最小递归语义表示）之间的双向映射。请注意，这些是精确语法，这意味着它们通常比统计系统更不容忍不合语法的输入。

英语资源语法 (ERG)是一种大型英语语法，具有广泛的通用领域覆盖范围。它是开源的，你可以从网站上下载它。可以在此处找到由 PET 解析器提供支持的在线演示。

PET 解析器分两步运行。第一个称为flop产生语法的“编译”版本。第二步是实际的解析，它使用便宜的程序。您需要为您的 Linux 机器获取这两个 PET 二进制文件，或者自己构建它们。如果您不熟悉在 Linux 上构建软件，这一步可能并不容易。PET 不能在 Windows（或 Mac，据我所知）上运行。

翻牌很容易。只需转到您的 /erg 目录，然后键入：

$ flop english.tdl

这将产生english.grm文件。现在您可以通过运行便宜来解析句子：

$ echo the child has the flu. | cheap --mrs english.grm

此示例以 MRS（最小递归语义）格式生成句子的单个语义表示：

 [ LTOP: h1
   INDEX: e2 [ e SF: PROP TENSE: PRES MOOD: INDICATIVE PROG: - PERF: - ]
   RELS: <
          [ _the_q_rel<-1:-1>
            LBL: h3
            ARG0: x6 [ x PERS: 3 NUM: SG IND: + ]
            RSTR: h5
            BODY: h4 ]
          [ "_child_n_1_rel"<-1:-1>
            LBL: h7
            ARG0: x6 ]
          [ "_have_v_1_rel"<-1:-1>
            LBL: h8
            ARG0: e2
            ARG1: x6
            ARG2: x9 [ x PERS: 3 NUM: SG ] ]
          [ _the_q_rel<-1:-1>
            LBL: h10
            ARG0: x9
            RSTR: h12
            BODY: h11 ]
          [ "_flu_n_1_rel"<-1:-1>
            LBL: h13
            ARG0: x9 ] >
   HCONS: < h5 qeq h7 h12 qeq h13 > ]

Copestake 的书解释了与 PET 兼容的语法中使用的特定句法和语言形式。它还可以作为开源 LKB 系统的用户手册，这是一个更具交互性的系统，也可以解析这些语法。除了解析之外，LKB 还可以做相反的事情：从 MRS 语义表示生成句子。LKB 目前仅在 Linux/Unix 上受支持。实际上一共有四个符合 DELPH-IN 的语法处理引擎，包括 LKB 和 PET。

对于 Windows，我为 .NET 开发了一个多线程解析器/生成器（以及此处）agreement；它还支持生成和解析。如果您需要以交互方式使用语法，您可能需要考虑使用 LKB 或同意除了 - 或代替 - PET。同意的交互式客户端前端大多基于 WPF，但引擎和简单的控制台客户端可以在任何 Mono 平台上运行。

ACE是另一个开源的兼容 DELPH-IN 的解析和生成系统，专为高性能而设计，可用于 Linux 和 MacOS。

LKB 是用 Lisp 编写的，而 PET 和 ACE 是 C/C++，因此后者是用于生产用途的更快的解析器。同意也比 LKB 快得多，但仅在解析复杂句子时才比 PET 快，在这种情况下，同意的无锁并发的开销被摊销了。

[11/25/2011 编辑：同意现在支持生成和解析]

score 0 · Accepted Answer

PET 确实支持 UTF-8，这取决于它在编译时的配置方式。除了 wiki 页面，还可以查看或将问题发布到邮件列表。

确实存在几种输入法，我建议 FSC (XML) 或 YY(s-exp) 是最现代的。我不知道有任何简短的教程，但您也可以查看Heart of Gold以获得完整的端到端 NLP 包，其中 PET 是一个组件。

你在用 ERG 解析吗？

parsing - 尝试使用 HPSG PET 解析器

2 回答 2

Related

Reference