php - 如何使用 HTML DOM 解析器解析无休止的分页网页？

Question

嗨，我正在尝试使用简单的 html dom 解析器解析一个无休止的分页（滚动提供更多项目）的网页。但我只能获取第一页的数据。如何获取其他网页的数据。

<?php

require  'simple_html_dom.php';

$html = file_get_html('http://www.flipkart.com/mobiles/pr?sid=tyy,4io&otracker=ch_vn_mobile_filter_Mobile%20Brands');

foreach ($html->find("div.pu-visual-section a") as $el) {

        $product_url = "http://flipkart.com".$el->href;

        echo $product_url;echo "<br>";

    }


 ?>

score 1 · Accepted Answer

禁用 javascript，转到该站点并检查是否有“更多”按钮。使用其中的链接获取新结果。

编辑：我禁用了 javascript 并检查了您的网址。

页面底部有一个“下一个”链接：

http://www.flipkart.com/mobiles/~new-releases/pr?sid=tyy%2C4io&start=21&ref=436ee817-3fca-44b8-9b53-777f12126701

这&start=21将是您获取新项目的必要部分。&start=41ETC

编辑 2：所以您不想解析所有现有项目，而是获取项目计数。

preg_match('/class=\"items\">(.*?)</', $result, $match);

有了这个，你应该得到想要的结果。我没有用页面内容本身测试它。让我知道它是否有帮助！

php - 如何使用 HTML DOM 解析器解析无休止的分页网页？

1 回答 1

Related

Reference