apify - puppeteer crawler - 通过单击“下一步”按钮进行分页

Question

我的 Puppeteer 爬虫遇到以下问题：我正在抓取的网站有结果页面，我们可以通过单击底部页面的箭头导航到下一页（链接没有简单的 href，所以我们需要模拟点击按钮）。在每一页上，我需要抓取所有项目的详细信息（房地产卡/30 页卡）。

问题是：如何导航到所有后续页面，并刮掉每个页面上的所有卡片？

我所做的：在开始网址上，我填写了一个表单以提交并获得我请求的前 30 个结果。然后，我在与页面底部的箭头匹配的选择器上循环并单击它，直到选择器不存在。导航有效，但刮板无法获取每页上卡片的所有链接。所以只有前30张牌被刮掉，然后刮板停止。

async function pageFunction(context) {

    switch (context.request.userData.label) {
        case 'START': return handleStart(context);
        case 'DETAIL': return handleDetail(context);
    }

    async function handleStart({ log, page, customData }) {
        // fill in form and submit to get the results page
        await page.click(home.submitSearch);
 
        // waiting for some selectors on first results page 
        await page.waitForSelector(searchResults.card);
        await page.waitForSelector(searchResults.blockNavigation);

        // navigate with pagination
        while (await page.$(searchResults.nextPage) !== null) {
           await page.waitForSelector(searchResults.card);
           await page.waitForSelector(searchResults.blockNavigation);
           await page.click(searchResults.nextPage)
        }
    }

    async function handleDetail({ request, log, skipLinks, page }) {
        const description = await page.$eval(descriptionSelector, (el => el.textContent));
        return { description };
    }
}

“START”标签与表单的起始 URL 相匹配。

“详细信息”标签与结果页面上与一张卡片相关的链接相匹配。

关于如何处理这种情况的任何想法？

score 1 · Accepted Answer

这是网络抓取的典型问题。单击下一步按钮后，它看起来使用一些 XHR 请求来获取其他数据的网站。

如果不了解网站的结构和如何运作的知识，很难得到一些建议。但是你可以用这两种方法：

1) 使用网站 XHR 请求获取数据。您可以使用浏览器控制台检查 XHR 请求并将它们复制到您的爬虫中。

2）你试图做的方法。只需等待并单击循环中的下一个按钮。并在没有下一步按钮后获取所有数据。我在您当前的代码中没有看到任何问题，但这取决于您在 puppeteer scraper 中使用的伪 URL 和可点击选择器。如果您正确设置它们，它应该可以工作。

无论如何，有一个很好的教程来教你如何在 puppeteer scraper 中进行分页。你可以检查一下。

apify - puppeteer crawler - 通过单击“下一步”按钮进行分页

1 回答 1

Related

Reference