3

要匹配以 开头dog,后跟cat(但不消耗cat)的字符串,这样可以:

local lpeg = require 'lpeg'
local str1 = 'dogcat'
local patt1 = lpeg.C(lpeg.P('dog')) * #lpeg.P('cat')
print(lpeg.match(patt1, str1))

输出:dog

要匹配以 开头的字符串dog,后跟任何字符序列,然后是cat(但不使用它),例如正则表达式 lookahead (dog.+?)(?=cat),我尝试了这个:

local str2 = 'dog and cat'
local patt2 = lpeg.C(lpeg.P("dog") * lpeg.P(1) ^ 1) * #lpeg.P("cat")
print(lpeg.match(patt2, str2))

我的预期结果是dog and,但它返回nil

如果我丢弃前瞻部分(即使用模式lpeg.C(lpeg.P("dog") * lpeg.P(1) ^ 1)),它可以成功匹配整个字符串。这意味着* lpeg.P(1) ^ 1part 正确匹配任何字符序列,不是吗?

如何解决?

4

1 回答 1

3

您需要在可以匹配的前瞻中的每个位置否定“猫”:

local patt2 = lpeg.C(lpeg.P"dog" * (lpeg.P(1)-lpeg.P"cat") ^ 1) * #lpeg.P"cat"

我认为插入我一直在使用的调试器(pegdebug)是合适的,因为它在这种情况下会有所帮助。这是它为原始 lpeg 表达式生成的输出:

+   Exp 1   "d"
 +  Dog 1   "d"
 =  Dog 1-3 "dog"
 +  Separator   4   " "
 =  Separator   4-11    " and cat"
 +  Cat 12  ""
 -  Cat 12
-   Exp 1

您可以看到 Separator 表达式“吃掉”所有字符,包括“cat”,并且没有任何内容可以匹配P"cat".

修改后的表达式的输出如下所示:

+   Exp 1   "d"
 +  Dog 1   "d"
 =  Dog 1-3 "dog"
 +  Separator   4   " "
 =  Separator   4-8 " and "
 +  Cat 9   "c"
 =  Cat 9-11    "cat"
=   Exp 1-8 "dog and "
/   Dog 1   0   
/   Separator   4   0   
/   Exp 1   1   "dog and "

这是完整的脚本:

require 'lpeg'
local peg = require 'pegdebug'
local str2 = 'dog and cat'
local patt2 = lpeg.P(peg.trace { "Exp";
  Exp = lpeg.C(lpeg.V"Dog" * lpeg.V"Separator") * #lpeg.V"Cat";
  Cat = lpeg.P("cat");
  Dog = lpeg.P("dog");
  Separator = (lpeg.P(1) - lpeg.P("cat"))^1;
})
print(lpeg.match(patt2, str2))
于 2014-11-19T06:31:57.800 回答