css - 使用 Lemon Parser Generator 的歧义语法

Question

所以基本上我想使用 PEAR 包 PHP_LexerGenerator 和 PHP_ParserGenerator 生成的词法分析器/解析器来解析 PHP 中的结构 CSS 代码。我的目标是解析这样的文件：

selector, selector2 {
    prop: value;
    prop2 /*comment */ :
       value;

    subselector {
        prop: value;
        subsub { prop: value; }
    }
}

只要我没有伪类，这一切都很好。伪类允许它向元素添加:CSS 名称 ( [a-z][a-z0-9]*)，例如 in a.menu:visited。有点懒惰，解析器没有有效的伪类列表，并接受类名的所有内容。

我的语法（忽略所有特殊情况和空格）如下所示：

document   ::= (<rule>)*

rule       ::= <selector> '{' (<content>)* '}'

content    ::= <rule>
content    ::= <definition>

definition ::= <name> ':' <name> ';'

//             h1     .class.class2#id    :visited
<selector> ::= <name> (('.'|'#') <name>)* (':' <name>)?

现在，当我尝试解析以下内容时

h1 {
    test:visited {
        simple: case;
    }
}

解析器抱怨说，它期望 a<name>跟在双冒号后面。所以它尝试将其读取simple:为 a <selector>（只需查看 SO 的语法突出显示）。

解析器无法回溯到足以尝试<definition>规则是我的错误吗？还是柠檬不足以表达这一点？如果是这样，我该怎么做才能让解析器使用这个语法？

score 3 · Accepted Answer

您的问题询问有关PHP_ParserGenerator和PHP_LexerGenerator的问题。解析器生成器代码被标记为“未维护”，这是不祥之兆。

您用于语法的语法对于 Lemon 来说是不可接受的，因此您需要澄清为什么您认为解析器生成器应该接受它。您提到 'expected a<name>跟随双冒号的问题，但是您的语法和示例输入都没有双冒号，这很难帮助您。

我认为这个柠檬语法相当于你展示的那个：

document        ::= rule_list.
rule_list       ::= .
rule_list       ::= rule_list rule.
rule            ::= selector LBRACE content_list RBRACE.
content_list    ::= .
content_list    ::= content_list content.
content         ::= rule.
content         ::= definition.
definition      ::= NAME COLON NAME SEMICOLON.
selector        ::= NAME opt_dothashlist opt_colonname.
opt_dothashlist ::= .
opt_dothashlist ::= dot_or_hash NAME.
dot_or_hash     ::= DOT.
dot_or_hash     ::= HASH.
opt_colonname   ::= COLON NAME.

然而，当它被编译时，Lemon 报错1 parsing conflicts并且输出文件显示：

State 2:
          definition ::= NAME * COLON NAME SEMICOLON
          selector ::= NAME * opt_dothashlist opt_colonname
     (10) opt_dothashlist ::= *
          opt_dothashlist ::= * dot_or_hash NAME
          dot_or_hash ::= * DOT
          dot_or_hash ::= * HASH

                         COLON shift  10
                         COLON reduce 10  ** Parsing conflict **
                           DOT shift  13
                          HASH shift  12
               opt_dothashlist shift  5
                   dot_or_hash shift  7

这意味着不确定如何处理冒号。它可能是“选择器”的“opt_colonname”部分，也可能是“定义”的一部分：

name1:name4 : name2:name3 ;

你的意思是允许这样的语法吗？名义上，根据语法，这应该是有效的，但是

name1:name4;

也应该是有效的。我认为它需要 2 或 3 个前瞻标记来消除这些歧义（因此您的语法不是 LALR(1) 而是 LALR(3)）。

尤其要查看您对“选择器”的定义。

css - 使用 Lemon Parser Generator 的歧义语法

1 回答 1

Related

Reference