如果您只想解析 Lisp 的一个子集(尤其是 Scheme 的一个简单子集),您可以自己编写该解析器,m//gc
样式和堆栈:
sub parse {
my $_ = shift;
pos($_) = 0;
my @stack = ([]);
while (pos($_) < length($_)) {
m/\G\s+/gc and next; # skip whitespace
if (m/\G\(/gc) { # opening parens
push @stack, [];
} elsif (m/\G\)/gc) { # closing parens
my $list = pop @stack;
push @{ $stack[-1] }, $list;
} elsif (m/([\w-.]+)/gc) { # identifiers, numbers
push @{ $stack[-1] }, $1;
} else {
die "I'm at @{[pos($_)]} and I have no idea how to parse this";
}
}
@stack == 1 or die "Closing parens expected at the end";
return $stack[0];
}
这相当小,但可以解析基本的 Lisp。当您想要允许阅读器宏或准引号或字符串时,它会变得更加困难。还应该提供更好的错误消息。
使用马尔巴,上述循环不会有太大变化;我们将令牌提供给识别器,而不是push
ing。
my $grammar = Marpa::R2::Grammar->new({
..., # some other options here
soure => \(<<'END_OF_GRAMMAR),
:start ::= Atom
List ::= (ParenL) AtomList (ParenR) action => ::first
Atom ::= List action => ::first
| Number action => ::first
| Identifier action => ::first
AtomList ::= Atom+
END_OF_GRAMMAR
});
$grammar->precompute; # compile the grammar
这将期望终端符号ParenL
, ParenR
, Number
, Identifier
。
在我们的parse
sub 中,我们首先要创建一个新的识别器
my $rec = Marpa::R2::Recognizer({ grammar => $grammar });
并修改我们的标记器循环中的操作:
my ($type, $value);
if (m/\G\(/gc) {
($type, $value) = (ParenL => undef);
} elsif (m/\G\)/gc) {
($type, $value) = (ParenR => undef);
} elsif (m/\G([0-9]+(?:\.[0-9]+))/gc) {
($type, $value) = (Number => $1);
} elsif (m/\G([\w-]+)/gc) {
($type, $value) = (Identifier => $1);
} else {
die ...;
}
unless (defined $rec->read($type, $value) {
die "Error at position @{[pos($_)]}. Expecting any of\n",
map " * $_\n", @{ $rec->terminals_expected };
}
我们可以通过以下方式提取解析树
my $ref = $rec->value;
unless (defined $ref) {
die "The input couldn't be parsed";
}
return $$ref;
在我们的例子中,解析树将是一堆嵌套的数组引用。但是您可以提供自定义操作,以便生成更复杂的 AST。例如,将树的每个节点祝福到一个对象,然后调用compile
根节点可能是一种策略。