php - 抓取 HTML 内容，preg_match 不起作用

Question

目前我正在从 HTML 页面中抓取数据。我的代码之一不起作用。HTML 内容有这样的东西。

<ul class="pagination">
    <li>
        <span class="page active">
            1
        </span>
    </li>
    <li>
        <a class="page available" href="/somethingherewithanychars1">
            2
        </a>
    </li>
    <li>
        <a class="page available" href="/somethingherewithanychars2">
            3
        </a>
    </li>
    <li>
        <a class="page available" href="/somethingherewithanychars3">
        4
        </a>
    </li>
<ul>

我尝试使用此代码获取活动页面链接旁边的 href 值，例如在示例中，活动页面链接是第 1 页，因此我将获得的 href 值必须是第 2 页，其中值为/somethingherewithanychars1但它是不工作

$file_string = file_get_contents($url); 
 preg_match('/<li><span class="page active">.*?<\/span><\/li><li><a class="page available" href="(.*)">/i', $file_string, $pages); 

print_r($pages);

我正在访问的 html 有一些这样的代码

<div class="attributes">
   <a class="name" href="/linksTothissite" data-hovercard-id="somechars">link1</a>
   <span class="list">
    USA
   </span>
   <a class="name" href="/linksTothissite" data-hovercard-id="somechars">link2</a>
   <span class="list">
    CANADA
   </span>
</div>

我尝试使用此代码获取值，我可以获取链接 1 和链接 2

preg_match_all('/<a class="name" href=".*?" data-hovercard-id=".*?">(.*)<\/a>/i', $file_string, $values);

这个我也可以拿到美国和加拿大

 preg_match_all('/<span class="list">(.*?)<\/span>/s',$file_string, $values); 
         $val= $values[1];

为什么我的 preg_match 没有得到我需要的值？我也尝试使用 pre_match_all() 但我仍然在我的 print_r Array ()中得到输出，但我的其余代码有效。

score 1 · Accepted Answer

这样做的一个好方法是使用 DOM 与 XPath 相结合，如 Prix 所写。

如果您想检查您要查找的链接是否是“分页”类的无序列表中某个项目的子元素，并检查该项目是否是“活动页面”项目之后的下一个项目，查询将有点复杂。

$doc = new DOMDocument();
@$doc->loadHTMLFile($url);
$xpath = new DOMXPath($doc);
$xquery = '//ul[@class="pagination"]'                    // ul with the "pagination" class
        . '/li[descendant::span[@class="page active"]]'  // li that contains a span with "page active" class
        . '/following-sibling::*[1]'                     // next sibling (next li)
        . '/a/@href';                                    // href attribute of the a tags
$links = $xpath->query($xquery);
echo $links->item(0)->value;

您的正则表达式不起作用的原因是：

您已经忘记了标签之间所有可能的空格（空格、制表符、换行符）。
您使用点来描述无法匹配换行符的标签之间的可能字符
这里不是致命的，但是：您使用贪婪的量词(.*)"来描述链接（结果：正则表达式引擎将采用该行的最后一个双引号，而不是它遇到的第一个双引号。）

\s*在必要时添加后，您可以替换.*和.*?否定字符类：

preg_match('/<li>\s*<span class="page active">[^<]+<\/span>\s*<\/li>\s*<li>\s*<a class="page available" href="([^"]+)">/i', $file_string, $pages);

请记住，当 DOM 方法始终有效时（只要树结构保持不变），您的 html 代码中的最小更改都会使您的模式失败

php - 抓取 HTML 内容，preg_match 不起作用

1 回答 1

Related

Reference