5

我正在尝试使用在 antlr3 中工作的有点大的语法的 antlr4。完成了所需的 2 个语法更改,现在我有了生成词法分析器和解析器的工具。

但是,词法分析器有一个编译错误:

1)该类型在常量池中生成一个需要65535个字节以上的Utf8格式编码的字符串

该错误显示在 Eclipse 中的类名上,因此不确定它正在谈论的是哪个字符串,但我怀疑它是这个非常长的字符串:

    public static final String _serializedATN =
        "\1\2\u01c5\u1741\6\uffff\2\0\7\0\2\1\7\1\2\2\7\2\2\3\7\3\2\4\7\4\2\5\7"+
        "\5\2\6\7\6\2\7\7\7\2\b\7\b\2\t\7\t\2\n\7\n\2\13\7\13\2\f\7\f\2\r\7\r\2"+
... etc, etc (few hundred lines of unicode)

看起来像解析器生成器中的一个错误,但可能需要一些我不知道的 antlr4 新设置(?)

4

1 回答 1

5

这确实是 Java 中的一个限制,而不是 ANTLR 中的错​​误(创建了正确的序列化字符串,但 Java 的编码无法存储它)。上周我们调整了_serializedATN表示来帮助解决这个问题,但我们还没有实现完整的解决方法,包括将序列化的表单分成多个字符串或允许将其存储在运行时加载的单独文件中。

可能有一些方法可以调整语法以减小所需 ATN 的大小,但我需要查看语法来评估它。

更新:从 ANTLR 4.1 开始,_serializedATN现在根据需要进行拆分,以确保生成的代码中不超过常量池限制。有关详细信息,请参阅第 76期。

于 2013-01-17T15:23:22.143 回答