我有一个网络爬虫,可以查找我想要的特定信息并将其返回。这是每天运行的。
问题是我的爬虫必须做两件事。
- 获取它必须抓取的链接。
- 爬行说链接并将东西推送到数据库。
#1 的问题是,总共有 700 多个链接。这些链接不会经常更改 - 也许每月一次?
因此,一种选择是每月对“链接列表”进行一次单独的爬网,然后将链接转储到数据库中。
然后,让爬虫每天对这 700 个链接中的每一个进行 db hit。
或者,我可以在我的爬虫中进行嵌套爬取 - 每次爬虫运行时(每天),它都会更新这个 700 个 URL 的列表并将其存储在一个数组中,然后从这个数组中提取它来抓取每个链接。
哪个更高效,对 Heroku 或任何主机的征税更少?