我已阅读有关使用Apify SDK抓取网站的优秀文档,但需要一些帮助,因为PuppeteerCrawler的指南尚未完成
我想抓取的网站部分是成员目录。主页(我相信我需要提供 as RequestList
)包含指向目录前 50 个成员的链接。要获取接下来的 50 个成员,有一个选项框,如下所示:
<span id="foo">Show:<select onchange="bar.pagerChanged(this);">
<option value="0">1-50</option>
<option value="50">51-100</option>
<option value="100">101-150</option>
...
<option value="2400">2401-2450</option>
</select>
</span>
我不确定我将如何解决这个问题,除了我认为我需要PuppeteerCrawler给定用户输入(单击带有 的选项id="foo"
)是必需的。我需要做的是从首页开始,将所有 50 个链接添加到 中RequestQueue
,然后选择下一批 50 个成员,然后冲洗并重复。