7

一天中的好时光!我正在阅读一本关于 perl 的书:Larry Wall、Tom Christiansen、Jon Orwant 的“Programming Perl”。在这本书中,我发现了几个作者没有阐明的例子(或者我当时根本不明白)。

首先

这只会打印一次 hi。

 "adfsfloglig"=~ /.*(?{print "hi"})f/;

但这会打印“嗨”两次??怎么解释?

 "adfsfloglig"=~ /.*(?{print "hi"})log/;

继续实验甚至让事情变得更糟:

  "adfsfloglig"=~ /.*(?{print "hi"})sflog/;

上面的代码字符串再次只打印一次这个可怕的“hi”!大约一周后,我只完全理解了一件事——我需要帮助 :) 所以我请你帮助我,拜托。

第二个(这是炸弹!)

 $_ = "lothiernbfj";

 m/        (?{$i = 0; print "setting i to 0\n"})
       (.(?{ local $i = $i + 1; print "\ti is $i"; print "\tWas founded $&\n" }))*
       (?{print "\nchecking rollback\n"})
       er
       (?{ $result = $i; print "\nsetting result\n"})
 /x;
 print "final $result\n";

在这里,$result屏幕上的最终打印等于匹配的字符数.*,但我再也没有得到它。

当打开调试打印(如上所示)时,我看到,$i每次新字符包含在$&(字符串的匹配部分)时都会增加。

最后$i等于 11(字符串中的字符数),然后有 7 次回滚,当.*一次从其匹配字符返回时(7 次),所以会发生所有模式的匹配。

但是,该死的魔法,结果设置为$i! 而且我们并没有在任何地方减少这个值!所以$result应该等于11!但事实并非如此。作者是对的。我知道。

拜托,你能解释一下我很高兴见到的这个奇怪的 perl 代码吗?感谢您的任何回答!

4

2 回答 2

6

http://perldoc.perl.org/perlre.html的文档:

“警告:这个扩展的正则表达式功能被认为是实验性的,可能会在没有通知的情况下进行更改。由于正则表达式引擎中未来优化的影响,执行的具有副作用的代码在不同版本之间的执行可能不同。此功能的实现在 5.18.0 版本中进行了彻底的修改,它在早期版本的 perl 中的行为更加错误,尤其是在解析、词法变量、作用域、递归和重入方面。”

即使匹配失败,如果正则表达式引擎到了必须运行代码的地步,它也会运行代码。如果代码仅涉及分配给(本地?)变量和任何允许的操作,回溯将导致它撤消操作,因此失败的匹配将无效。但是print无法撤消操作,结果是您可以从失败的匹配中打印字符串。这就是文档警告不要嵌入具有“副作用”的代码的原因。

于 2013-07-20T11:37:47.847 回答
5

我做了一些实验,并将答案制作成一个社区 wiki,希望人们能够填充它。我试图破解最简单的正则表达式,但不敢处理“炸弹”。

1. "adfsfloglig"=~ /.*(?{print "hi"})f/;

这是正则表达式的调试信息:

Final program:
   1: STAR (3)
   2:   REG_ANY (0)
   3: EVAL (5)
   5: EXACT <f> (7)
   7: END (0)

以及我的评论中的执行痕迹:

#matches the whole string with .*
0 <> <adfsflogli>         |  1:STAR(3)
                             REG_ANY can match 11 times out of 2147483647...

#splits the string to <adfs> and <floglig> and prints "hi".
#Why does it split? Not sure, probably, knows about the f after "hi" code
4 <adfs> <floglig>        |  3:  EVAL(5)

#tries to find f in 'floglig' - success
4 <adfs> <floglig>        |  5:  EXACT <f>(7)

#end
5 <adfsf> <loglig>        |  7:  END(0)

2. "adfsfloglig" =~ /.*(?{print "hi"})log/;

 1: STAR (3)
 2:   REG_ANY (0)
 3: EVAL (5)
 5: EXACT <log> (7)
 7: END (0)

痕迹:

#matches the whole string with .*
0 <> <adfsflogli>         |  1:STAR(3)
                            REG_ANY can match 11 times out of 2147483647...

#splits the string to <adfsflog> and <lig> and prints "hi".
#Probably, it found 'l' symbol after the code block
#and, being greedy, tries to capture up to the last 'l'
8 <adfsflog> <lig>        |  3:  EVAL(5)

#compares the 'lig' with 'log' - failed
8 <adfsflog> <lig>        |  5:  EXACT <log>(7)
                                    failed...

#moves backwards, taking the previous 'l'
#prints 2-nd 'hi'
5 <adfsf> <loglig>        |  3:  EVAL(5)

#compares 'loglig' with 'log' - success
5 <adfsf> <loglig>        |  5:  EXACT <log>(7)

#end
8 <adfsflog> <lig>        |  7:  END(0)

3. "adfsfloglig"=~ /.*(?{print "hi"})sflog/;

 1: STAR (3)
 2:   REG_ANY (0)
 3: EVAL (5)
 5: EXACT <sflog> (8)
8: END (0)

痕迹:

#matches the whole string with .*
0 <> <adfsflogli>         |  1:STAR(3)
                           REG_ANY can match 11 times out of 2147483647...

#splits the string to <adf> and <sfloglig> and prints "hi".
3 <adf> <sfloglig>        |  3:  EVAL(5)

#compares 'sfloglig' with 'sflog' - success
3 <adf> <sfloglig>        |  5:  EXACT <sflog>(8)

#end
8 <adfsflog> <lig>        |  8:  END(0)
于 2013-07-20T10:52:15.420 回答