0

我的 Puppeteer 爬虫遇到以下问题:我正在抓取的网站有结果页面,我们可以通过单击底部页面的箭头导航到下一页(链接没有简单的 href,所以我们需要模拟点击按钮)。在每一页上,我需要抓取所有项目的详细信息(房地产卡/30 页卡)。

问题是:如何导航到所有后续页面,并刮掉每个页面上的所有卡片?

我所做的:在开始网址上,我填写了一个表单以提交并获得我请求的前 30 个结果。然后,我在与页面底部的箭头匹配的选择器上循环并单击它,直到选择器不存在。导航有效,但刮板无法获取每页上卡片的所有链接。所以只有前30张牌被刮掉,然后刮板停止。

async function pageFunction(context) {

    switch (context.request.userData.label) {
        case 'START': return handleStart(context);
        case 'DETAIL': return handleDetail(context);
    }

    async function handleStart({ log, page, customData }) {
        // fill in form and submit to get the results page
        await page.click(home.submitSearch);
 
        // waiting for some selectors on first results page 
        await page.waitForSelector(searchResults.card);
        await page.waitForSelector(searchResults.blockNavigation);

        // navigate with pagination
        while (await page.$(searchResults.nextPage) !== null) {
           await page.waitForSelector(searchResults.card);
           await page.waitForSelector(searchResults.blockNavigation);
           await page.click(searchResults.nextPage)
        }
    }

    async function handleDetail({ request, log, skipLinks, page }) {
        const description = await page.$eval(descriptionSelector, (el => el.textContent));
        return { description };
    }
}

“START”标签与表单的起始 URL 相匹配。

“详细信息”标签与结果页面上与一张卡片相关的链接相匹配。

关于如何处理这种情况的任何想法?

4

1 回答 1

1

这是网络抓取的典型问题。单击下一步按钮后,它看起来使用一些 XHR 请求来获取其他数据的网站。

如果不了解网站的结构和如何运作的知识,很难得到一些建议。但是你可以用这两种方法:

1) 使用网站 XHR 请求获取数据。您可以使用浏览器控制台检查 XHR 请求并将它们复制到您的爬虫中。

2)你试图做的方法。只需等待并单击循环中的下一个按钮。并在没有下一步按钮后获取所有数据。我在您当前的代码中没有看到任何问题,但这取决于您在 puppeteer scraper 中使用的伪 URL 和可点击选择器。如果您正确设置它们,它应该可以工作。

无论如何,有一个很好的教程来教你如何在 puppeteer scraper 中进行分页。你可以检查一下。

于 2019-11-11T09:47:15.763 回答