1

我正在尝试使用 PHP 捕获 HTML 中超链接的所有属性,但我的正则表达式只返回最后一个属性和值。

HTML:

$string = '
<a href="http://www.example.com/" style="font-weight: bold;">Example</a>
<a href="http://www.exampletwo.com/ style="font-weight: bold;">Example Two</a>
';

正则表达式:

preg_match_all('/<a(?: (.*?)="(.*?)")*>(.*?)<\/a>/i', $string, $result);

结果:

Array
(
    [0] => Array
        (
            [0] => <a href="http://www.example.com/" style="font-weight: bold;">Example</a>
            [1] => <a href="http://www.exampletwo.com/" style="font-weight: bold;">Example Two</a>
        )
    [1] => Array
        (
            [0] => style
            [1] => style
        )
    [2] => Array
        (
            [0] => font-weight: bold;
            [1] => font-weight: bold;
        )
    [3] => Array
        (
            [0] => Example
            [1] => Example Two
        )
)

我怎样才能让它返回重复模式的所有结果?

4

1 回答 1

3

如果我可以提出一个替代经常被诟病的“正则表达式 HTML 解析”:

<?php
    $string = '
        <a href="http://www.example.com/" style="font-weight: bold;">Example</a>
        <a href="http://www.exampletwo.com/" style="font-weight: bold;">Example Two</a>
        ';

    $dom = new DOMDocument;
    $dom->loadHTML($string);
    $as = $dom->getElementsByTagName('a');
    foreach ($as as $a) {
        echo $a->nodeValue, '<br>';
        foreach ($a->attributes as $at) {
            echo $at->nodeName, ' ', $at->nodeValue, '<br>';
        }
        echo '<br><br>';
    }
?>

使用 DOMDocument 解析你的 HTML,然后简单地告诉它给你所有的锚标记。但是,如果您怀疑您将处理大量 HTML 输入,那么总会有XMLReader,尽管您会遇到不正确或非 XHTML 输入的问题。

于 2012-07-19T13:27:22.090 回答