1

我有一个使用 C 目标的 antlr 生成的 Java 解析器,它工作得很好。问题是我还希望它解析错误代码并生成有意义的 AST。如果我用一个导入提供一个最小的 Java 类,然后缺少一个分号,它会生成两个“树错误节点”对象,其中“导入”令牌和导入类的令牌应该是。

但是由于它正确解析了以下代码并为此代码生成了正确的节点,因此它必须通过添加分号或重新同步来从错误中恢复。有没有办法让 antlr 反映它在 AST 内部产生的这个固定输入?或者我至少可以以某种方式获得产生“树节点错误”的令牌/文本吗?

在第 200 行附近的 C 目标 antlr3commontreeadaptor.c中,以下片段表明 C 目标目前仅创建虚拟错误节点:

static  pANTLR3_BASE_TREE
errorNode                               (pANTLR3_BASE_TREE_ADAPTOR adaptor,   pANTLR3_TOKEN_STREAM ctnstream, pANTLR3_COMMON_TOKEN startToken, pANTLR3_COMMON_TOKEN stopToken, pANTLR3_EXCEPTION e)
{
    // Use the supplied common tree node stream to get another tree from the factory
    // TODO: Look at creating the erronode as in Java, but this is complicated by the
    // need to track and free the memory allocated to it, so for now, we just
    // want something in the tree that isn't a NULL pointer.
    //
    return adaptor->createTypeText(adaptor, ANTLR3_TOKEN_INVALID, (pANTLR3_UINT8)"Tree Error Node");
}

我在这里运气不好,只有Java目标产生的错误节点才能让我检索错误节点的文本?

4

2 回答 2

0

antlr我用的不多,但是通常你处理这种类型的错误的方式是添加匹配错误语法的规则,让它们产生错误节点,并尝试在错误后进行修复,以便你可以继续解析。事后修复是个问题,因为您不希望一个错误为每个新令牌触发越来越多的错误,直到最后。

于 2010-05-14T17:39:46.727 回答
0

我通过为所有可能的错误语句添加新的替代规则来解决这个问题。

例如,每个 Java 导入语句都被转换为以人工符号 IMPORT 作为根的 AST 子树。为了确保我可以将 AST 与正确代码和错误代码区分开来,错误语句的规则将它们重写为带有前缀 ERR_ 的根符号的 AST,因此在导入语句的示例中,人造根符号将是 ERR_IMPORT。

更多不同的根符号可用于编码有关解析错误的更详细信息。

我的解析器现在可以像我需要的那样容错,并且在我需要时很容易为新的错误输入添加规则。但是,您必须注意不要在语法中引入任何歧义。

于 2010-06-14T07:50:41.430 回答