java - 如何简化令牌预测 DFA？

Question

Lexer DFA 导致“代码太大”错误

我正在尝试使用 ANTLR 3 解析 Java 服务器页面。

Java 对单个方法的字节码有 64k 的限制，在编译 ANTLR 生成的 Java 源代码时，我一直遇到“代码太大”错误。

在某些情况下，我可以通过破坏我的词法分析器来修复它。例如，JSP 使用 XML“名称”标记，它可以包含多种字符。我决定在我的“名称”标记中只接受 ASCII 字符，这极大地简化了一些测试，并且词法分析器允许它编译。

但是，我已经到了不能再偷工减料的地步了，但是 DFA 仍然太复杂了。

我该怎么办？

是否存在导致复杂 DFA 的常见错误？

有没有办法抑制 DFA 的生成，也许依靠语义谓词或固定的前瞻来帮助预测？

手工编写这个词法分析器很容易，但在我放弃 ANTLR 之前，我想确保我没有忽略一些明显的东西。

背景

ANTLR 3 词法分析器使用 DFA 来决定如何标记输入。在生成的 DFA 中，有一个方法叫做specialStateTransition(). 此方法包含一个switch语句，其中包含 DFA 中每个状态的案例。在每种情况下，都有一系列if语句，每个语句用于状态转换。每个if语句的条件测试一个输入字符以查看它是否与转换匹配。

这些字符测试条件可能非常复杂。它们通常具有以下形式：

int ch = … ; /* "ch" is the next character in the input stream. */
switch(s) { /* "s" is the current state. */
  …
  case 13 :
    if ((('a' <= ch) && (ch <= 'z')) || (('A' <= ch) && (ch <= 'Z')) || … )
      s = 24; /* If the character matches, move to the next state. */
    else if …

对我的词法分析器的一个看似微小的更改可能会导致对单个转换、每个状态的多个转换和多个状态进行数十次比较。我认为由于我的语义谓词，某些正在考虑的状态是不可能达到的，但 DFA 似乎忽略了语义谓词。（不过我可能会误读——这段代码绝对不是我能手写的！）

我在 Jsp2x 工具中找到了一个 ANTLR 2 语法，但我对它的解析树不满意，我想刷新我的 ANTLR 技能，所以我想我会尝试自己编写。我正在使用 ANTLRWorks，并尝试为 DFA 生成图表，但 ANTLRWorks 中似乎存在阻止它的错误。

score 4 · Accepted Answer

非常大的语法（许多不同的标记）有这个问题，不幸的是（SQL 语法也有这个问题）。

有时可以通过制定某些词法分析器规则来解决此问题，这些fragments规则与产生标记的“完整”词法分析器规则相对，和/或重新安排字符在规则中的匹配方式，但是通过查看您已经尝试过的方式，我怀疑是否可以在你的情况下获得了很多。但是，如果您愿意在 SO 上发布您的词法分析器语法，我或其他人可能会看到可以更改的内容。

通常，通过将词法分析器语法拆分为 2 个或多个单独的词法分析器语法，然后将它们导入一个“主”语法来解决此问题。在 ANTLR 术语中，这些被称为复合文法。请参阅有关它们的 ANTLR Wiki 页面：http ://www.antlr.org/wiki/display/ANTLR3/Composite+Grammars

编辑

正如@Gunther 在 OP 下方的评论中正确提到的那样，请参阅问答：为什么我的 antlr lexer java 类“代码太大”？一个小的变化（删除某个谓词）导致这个“代码太大”错误消失。

score 3 · Accepted Answer

好吧，实际上制作复合语法并不总是那么容易。在很多情况下，这个 AntTask有助于解决这个问题（每次重新编译语法后都必须运行它，但这个过程并不那么无聊）。

不幸的是，即使是这个神奇的脚本在某些复杂的情况下也无济于事。编译器可能会开始抱怨DFA 转换块过大（静态 String[] 字段）。

我找到了一种简单的方法来解决它，通过将这些字段移动（使用 IDE 重构功能）到另一个具有任意生成名称的类。当以这种方式移动一个或多个字段时，它总是有帮助的。

java - 如何简化令牌预测 DFA？

Lexer DFA 导致“代码太大”错误

我该怎么办？

背景

2 回答 2

编辑

Related

Reference