4

我有以下行:

"14:48 say;0ed673079715c343281355c2a1fde843;2;laka;hello ;)"

我使用一个简单的正则表达式来解析它:

if($line =~ /(\d+:\d+)\ssay;(.*);(.*);(.*);(.*)/) {
    my($ts, $hash, $pid, $handle, $quote) = ($1, $2, $3, $4, $5);
}

但是; 最后把事情搞砸了,我不知道为什么。贪婪的运营商不应该处理“一切”吗?

4

6 回答 6

18

贪婪的操作符试图尽可能多地抓取东西,并且仍然匹配字符串。发生的事情是第一个(在“say”之后)获取“0ed673079715c343281355c2a1fde843;2”,第二个获取“laka”,第三个找到“hello”,第四个匹配括号。

您需要做的是使除最后一个之外的所有内容都非贪婪,因此它们尽可能少地抓取并仍然匹配字符串:

(\d+:\d+)\ssay;(.*?);(.*?);(.*?);(.*)
于 2008-11-01T17:44:16.597 回答
7
(\d+:\d+)\ssay;([^;]*);([^;]*);([^;]*);(.*)

应该工作得更好

于 2008-11-01T17:40:29.087 回答
7

尽管正则表达式可以轻松做到这一点,但我不确定它是否是最直接的方法。它可能是最短的,但这实际上并不能使它成为最可维护的。

相反,我会建议这样的事情:

$x="14:48 say;0ed673079715c343281355c2a1fde843;2;laka;hello ;)";

if (($ts,$rest) = $x =~ /(\d+:\d+)\s+(.*)/)
{
    my($command,$hash,$pid,$handle,$quote) = split /;/, $rest, 5;
    print join ",", map { "[$_]" } $ts,$command,$hash,$pid,$handle,$quote
}

这导致:

[14:48],[say],[0ed673079715c343281355c2a1fde843],[2],[laka],[hello ;)]

我认为这只是更具可读性。不仅如此,我认为它也更容易调试和维护,因为这更接近于人类用笔和纸尝试同样的事情。将字符串分解成块,然后您可以更轻松地解析 - 让计算机完全按照您的意愿执行。当需要进行修改时,我认为这个会更好。YMMV。

于 2008-11-01T18:06:41.857 回答
3

尝试使前 3 个(.*)不贪婪(.*?)

于 2008-11-01T17:39:00.523 回答
3

如果分号分隔列表中的值本身不能包含任何分号,则只需将其拼出即可获得最有效和最直接的正则表达式。如果某些值只能是一串十六进制字符,请将其拼写出来。当正则表达式与主题字符串不匹配时,使用惰性或贪婪点的解决方案总是会导致大量无用的回溯。

(\d+:\d+)\ssay;([a-f0-9]+);(\d+);(\w+);([^;\r\n]+)
于 2008-11-02T01:21:51.167 回答
2

您可以通过附加问号使 * 不贪心:

$line =~ /(\d+:\d+)\ssay;(.*?);(.*?);(.*?);(.*)/

或者您可以匹配除最后一个部分之外的每个部分中除分号之外的所有内容:

$line =~ /(\d+:\d+)\ssay;([^;]*);([^;]*);([^;]*);(.*)/
于 2008-11-01T17:47:39.680 回答