15

所以我通过JISON生成了一个解析器:

// mygenerator.js
var Parser = require("jison").Parser;

// a grammar in JSON
var grammar = {
    "lex": {
        "rules": [
           ["\\s+", "/* skip whitespace */"],
           ["[a-f0-9]+", "return 'HEX';"]
        ]
    },

    "bnf": {
        "hex_strings" :[ "hex_strings HEX",
                         "HEX" ]
    }
};

// `grammar` can also be a string that uses jison's grammar format
var parser = new Parser(grammar);

// generate source, ready to be written to disk
var parserSource = parser.generate();

// you can also use the parser directly from memory

// returns true
parser.parse("adfe34bc e82a");

// throws lexical error
parser.parse("adfe34bc zxg");

我的问题是,我现在如何检索 AST?我可以看到我可以针对输入运行解析器,但如果它有效,它只会返回 true,否则会失败。

作为记录,我正在使用 JISON:http: //zaach.github.com/jison/docs/

4

2 回答 2

15

我发现了一种比另一个答案更简单、更清洁的方法。

这篇文章分为2部分:

  • 一般方式:阅读如何实现我的方式。
  • 实际答案:先前描述的特定于 OP 请求的方式的实现。

一般方式

  1. return语句添加到您的开始规则。

    例子:

    start
        : xyz EOF
            {return $1;}
        ;
    

    xyz是另一个生产规则。$1访问相关产生式规则的第一个符号(终端或非终端)的值。在上面的代码$1中包含来自xyz.

  2. $$ = ...语句添加到所有其他规则。

    警告:使用$$ = ...,不要returnreturn如名称所示,将通过返回指定的值立即中止进一步执行。

    例子:

    multiplication
        : variable '*' variable
            {$$ = {
                type: 'multiplication',
                arguments: [
                  $1,
                  $3
                ]
              };
            }
        ;
    

    上述产生式规则将对象传递$$给更高层(即使用该规则的产生式规则)。

    让我们补充乘法规则以实现可运行的示例:

    /* lexical grammar */
    %lex
    %%
    
    \s+                   /* skip whitespace */
    [0-9]+("."[0-9]+)?\b  return 'NUMBER'
    [a-zA-Z]+             return 'CHARACTER'
    "*"                   return '*'
    <<EOF>>               return 'EOF'
    .                     return 'INVALID'
    
    /lex
    
    %start start
    %% /* language grammar */
    
    start
        : multiplication EOF
            {return $1;}
        ;
    
    multiplication
        : variable '*' variable
            {$$ = {
                type: 'multiplication',
                arguments: [
                  $1,
                  $3
                ]
              };
            }
        ;
    
    variable
        : 'NUMBER'
            {$$ = {
                  type: 'number',
                  arguments: [$1]
                };
             }
        | 'CHARACTER'
            {$$ = {
                  type: 'character',
                  arguments: [$1]
                };
             }
        ;
    

    您可以在线尝试:http: //zaach.github.io/jison/try/。在此编辑时(12.02.2017),在线生成器遗憾地抛出错误 - 与您输入的 Jison 文件无关。有关如何在本地计算机上生成解析器的提示,请参阅第 3 步后的附录。

    如果您输入 example a*3,您将获得以下对象结构:

    {
      "type": "multiplication",
      "arguments": [
        {
          "type": "character",
          "arguments": ["a"]
        },
        {
          "type": "number",
          "arguments": ["3"]
        }
      ]
    }
    
  3. 通过注入自定义对象来清理代码和生成的 AST

    使用 Jison 生成的解析器时,您可以将任意对象注入到语法文件中的“代码块”范围内:

    const MyParser = require('./my-parser.js');
    MyParser.parser.yy = {
       MultiplicationTerm
       /*, AdditionTerm, NegationTerm etc. */
    };
    
    let calculation = MyParser.parse("3*4");
    // Using the modification below, calculation will now be an object of type MultiplicationTerm
    

    如果MultiplicationTerm有一个接受这两个因素的构造函数,则乘法的新部分将如下所示:

    multiplication
        : variable '*' variable
            {$$ = new yy.MultiplicationTerm($1, $3);}
        ;
    

关于如何创建 Jison 解析器的附录:

下载 Jison NPM 模块。然后,您可以使用 Jison 的命令行或new jison.Generator(fileContents).generate()在构建文件中运行来创建 Jison 解析器,并将返回的字符串写入您的首选文件,例如my-parser.js.

实际答案

应用上面的规则会导致下面的 Jison 文件。
据我所知,Jison 文件格式和 JavaScript API(如问题中所述)是可以互换的。

另请注意,此 Jison 文件仅生成一个扁平树(即列表),因为输入格式也只是一个列表(或者您将如何以逻辑方式嵌套连接的十六进制字符串?)。

/* lexical grammar */
%lex
%%

\s+                   /* skip whitespace */
[a-f0-9]+             return 'HEX'
<<EOF>>               return 'EOF'
.                     return 'INVALID'

/lex

%start start
%% /* language grammar */

start
    :  hex_strings EOF
        {return $1;}
    ;

hex_strings
    : hex_strings HEX
        {$$ = $1.concat([$2]);}
    | HEX
        {$$ = [$1];}
    ;
于 2014-07-01T19:21:15.733 回答
13

我对 Jison 的内部运作不太熟悉,所以我不知道有什么方法可以做到这一点。

但是,如果您有兴趣用一点蛮力来解决这个问题,试试这个:

首先,创建一个对象来保存 AST

function jisonAST(name, x) { this.name = name; this.x = x; }

// return the indented AST
jisonAST.prototype.get = function(indent){
  // create an indentation for level l
  function indentString(l) { var r=""; for(var i=0;i<l;i++){r+="  "}; return r }

  var r = indentString(indent) + "["+this.name+": ";
  var rem = this.x;
  if( rem.length == 1 && !(rem[0] instanceof jisonAST) ) r += "'"+rem[0]+"'"; 
  else for( i in rem ){ 
      if( rem[i] instanceof jisonAST ) r += "\n" + rem[i].get(indent+1);
      else { r += "\n" + indentString(indent+1); r += "'"+rem[i]+"'"; }
    }
  return r + "]";
}

为 Jison 的 BNF 添加一个小辅助函数

function o( s ){
    r = "$$ = new yy.jisonAST('"+s+"',[";
    for( i = 1; i <= s.split(" ").length; i++ ){ r += "$"+i+"," }
    r = r.slice(0,-1) + "]);";
    return [s,r];
}

有了这个,继续示例代码(稍作修改):

var Parser = require("jison").Parser;

// a grammar in JSON
var grammar = {
    "lex": {
        "rules": [
           ["\\s+", "/* skip whitespace */"],
           ["[a-f0-9]+", "return 'HEX';"]
        ]
    },
    "bnf": {
        // had to add a start/end, see below
        "start" : [ [ "hex_strings", "return $1" ] ],
        "hex_strings" :[ 
            o("hex_strings HEX"), 
            o("HEX") 
        ]
    }
};

var parser = new Parser(grammar);
// expose the AST object to Jison
parser.yy.jisonAST = jisonAST

现在你可以尝试解析:

console.log( parser.parse("adfe34bc e82a 43af").get(0) );

这会给你:

[hex_strings HEX: 
  [hex_strings HEX: 
    [HEX: 'adfe34bc']  
    'e82a']  
  '43af']

提示:我必须添加一个“开始”规则,以便只有一个返回结果的语句。它不干净(因为没有它 BNF 工作正常)。将其设置为切入点以确保...

于 2012-02-07T23:17:25.380 回答