java - JavaCC：如何处理包含常用词的标记

Question

我正在尝试为这样的源代码创建解析器：

[code table 1.0]
code table code_table_name
    id = 500
    desc = "my code table one"
end code table

...下面是我定义的语法：

PARSER_BEGIN(CodeTableParser)
...
PARSER_END(CodeTableParser)

/* skip spaces */
SKIP: {
         " "
    |    "\t"
    |    "\r"
    |    "\n"
}

/* reserved words */
TOKEN [IGNORE_CASE]: {
        <CODE_TAB_HEADER:     "[code table 1.0]">
    |   <CODE_TAB_END:        "end" (" ")+ <CODE_TAB_BEGIN>>
    |   <CODE_TAB_BEGIN:      <IDENT> | "code" (" ")+ "table">
    |   <ID:                  "id">
    |   <DESC:                "desc">
}

/* token images */
TOKEN: {
        <NUMBER:  (<DIGIT>)+>
    |   <IDENT:   (<ALPHA>)+>
    |   <VALUE:   (<ALPHA> ["[", "]"])+>
    |   <STRING:  <QUOTED>>
}

TOKEN: {
        <#ALPHA:  ["A"-"Z", "a"-"z", "0"-"9", "$", "_", "."]>
    |   <#DIGIT:  ["0"-"9"]>
    |   <#QUOTED: "\"" (~["\""])* "\"">
}

void parse():
{
}
{
    expression() <EOF>
}

void expression():
{
    Token tCodeTab;
}
{
    <CODE_TAB_HEADER>
    <CODE_TAB_BEGIN>
    tCodeTab = <IDENT>
    (
        <ID>
        <DESC>
    )*
    <CODE_TAB_END>
}

问题是解析器正确识别了令牌（“代码表”）......但它没有识别令牌 IDENT（“code_table_name”），因为它包含已经包含在令牌 CODE_TAB_BEGIN 中的单词（即“代码”）。解析器抱怨说“代码后面跟着无效字符_”......

话虽如此，我想知道为了让解析器正常工作，我缺少什么。我是新手，任何帮助将不胜感激;-)

谢谢，j3d

score 2 · Accepted Answer

你的词法分析器永远不会产生一个 IDENT，因为产生

<CODE_TAB_BEGIN:      <IDENT> | "code" (" ")+ "table">

表示每个 IDENT 都可以是一个 CODE_TAB_BEGIN，并且由于这个产生式首先出现，它通过第一个匹配规则击败了 IDENT 的产生式。(RTFFFAQ)

将该生产替换为

<CODE_TAB_BEGIN:      "code" (" ")+ "table">

你会在 ID 和 DESC 方面遇到麻烦，但这会让你通过第二行输入。

java - JavaCC：如何处理包含常用词的标记

1 回答 1

Related

Reference