python - 递归使用 Scrapy 从网站抓取网页

Question

我最近开始使用 Scrapy。我正在尝试从一个大列表中收集一些信息，该列表分为几页（大约 50 页）。我可以轻松地从第一页中提取我想要的内容，包括start_urls列表中的第一页。但是，我不想将这 50 个页面的所有链接都添加到此列表中。我需要一种更动态的方式。有谁知道我如何迭代地抓取网页？有没有人有这方面的例子？

谢谢！

score 1 · Accepted Answer

使用 urllib2 下载页面。然后使用 re（正则表达式）或 BeautifulSoup（HTML 解析器）来找到您需要的下一页的链接。用 urllib2 下载。冲洗并重复。

Scapy 很棒，但你不需要它来做你想做的事

score 0 · Accepted Answer

为什么不想将所有链接添加到 50 页？页面的 URL 是连续的www.site.com/page=1，www.site.com/page=2还是都不同？你能告诉我你现在拥有的代码吗？

python - 递归使用 Scrapy 从网站抓取网页

2 回答 2

Related

Reference