是否可以使用带有伪 URL 的 Apify 抓取多个页面?
当人们问同样的问题时,大多数答案都指向伪 URL,如果可能/不可能这样做,并没有真正直接解决问题。
如果我在运行爬虫时不知道伪 URL,并且我从一个页面中抓取了 10 个链接——那么我想抓取这 10 个链接,该怎么做呢?
https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages
是否可以使用带有伪 URL 的 Apify 抓取多个页面?
当人们问同样的问题时,大多数答案都指向伪 URL,如果可能/不可能这样做,并没有真正直接解决问题。
如果我在运行爬虫时不知道伪 URL,并且我从一个页面中抓取了 10 个链接——那么我想抓取这 10 个链接,该怎么做呢?
https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages
是的。
有两种主要方法可以将更多页面添加到爬取队列中。
伪 URL 用于跟踪符合特定结构的链接。网站通常在他们使用的 URL 中使用一些结构。例如:
https://github.com
使用结构:
https://github.com/{username}/{repository}
因此,如果您想为用户抓取所有存储库apifytech
,您可以使用这样的伪 URL:
https://github.com/apifytech/[.+]
您可以在Apify SDK 教程中找到有关 PseudoURL 的更多信息。
如果您需要在运行时动态添加更多链接到爬取队列,有几个选项。
使用Apify SDK时,您始终可以使用requestQueue.addRequest()
函数或utils.enqueueLinks()
函数。