php - PHP 抓取嵌套页面

Question

我是网络爬虫的新手，需要快速学习才能工作。我在抓取客户网页时遇到问题，因为我需要获取的内容唯一地嵌套在主页上的每条记录中（300 多次），子页面上的某些字段不在标签中，而且有点乱。获取以下信息的最佳逻辑是什么。（另外，如果有人知道任何更新的免费且值得研究的抓取工具，那就太棒了。我能够获取父页面上的所有记录。我只是不知道如何通过每条记录进行访问它是子页面信息，并在移动到父页面的下一行之前抓取它。

score 1 · Accepted Answer

foreach top level pages {
    html = fetch page
    data = process html
    while (there are more descendant pages) {
        html = fetch next page using data
        data = process html
    }
    save this data chain
}

但是，如果您对上述逻辑感到困惑，我想我不得不建议您跳过代码，将时间集中在学习现有工具之一上。您几乎可以肯定会节省时间。特别是如果你会经常刮。

php - PHP 抓取嵌套页面

1 回答 1

Related

Reference