4

使用preg_matchwith subpattern 总是返回具有相同数据的双键数组,一个带有子模式名称,另一个带有数字标记。因为我要匹配数十万行,每行只有几 KB,恐怕数字数组会占用额外的内存。是否有任何适当的方法来禁用数字标签数组返回?

例子:

<?php

header('Content-Type: text/plain');

$data = <<<START
I go to school.
He goes to funeral.
START;
preg_match_all('@^(?<who>.*?) go(es)* to (?<place>.*?)$@m', $data, $matches);
print_r($matches);

?>

输出:

Array
(
    [0] => Array
        (
            [0] => I go to school.
            [1] => He goes to funeral.
        )

    [who] => Array
        (
            [0] => I
            [1] => He
        )

    [1] => Array
        (
            [0] => I
            [1] => He
        )

    [2] => Array
        (
            [0] => 
            [1] => es
        )

    [place] => Array
        (
            [0] => school.
            [1] => funeral.
        )

    [3] => Array
        (
            [0] => school.
            [1] => funeral.
        )

)
4

1 回答 1

3

来自php.net- 子模式

可以使用语法命名子模式(?P<name>pattern)。然后,该子模式将在匹配数组中按其正常数字位置和名称进行索引。

我看不到仅按名称提供索引的选项。

所以,我认为,如果你不想要这个数据两次,唯一的可能性是:不要使用命名组。

这真的是一个问题吗?IMO 仅在遇到问题时才对其进行优化,因为这会增加内存使用量!提高的可读性应该值得记忆!

更新

看起来go(es)*应该只匹配一个可选的“es”。在这里,您可以使用非捕获组来节省内存。

preg_match_all('@^(?<who>.*?) go(?:es)? to (?<place>.*?)$@m', $data, $matches);

通过启动具有?:匹配内容的组不存储。我还替换了*表示 0 或更多的那个,并且还将“goeseses”与?表示 0 或 1 的那个匹配。

于 2012-04-27T07:52:07.633 回答