我编写了一个 php 网络爬虫来索引仅 180 个特定来源的内容,但每页平均需要 2 秒来分析、抓取和保存我想要的内容:图像、网址、标题、完整内容、摘录、标签。(有几种算法可以分析所有元标记以获取正确的数据)
我只抓取最新的 9 篇文章页面,所以每个来源需要 18-25 秒。
我创建了 10 个不同的 cron 作业(它们之间 6 分钟),所以每个可以处理 18 个源(大约 350 秒)。
这似乎非常低效,特别是如果我想达到 1k 来源。我应该修改什么?
ps:我在共享主机上测试它,专用服务器会大大减少时间吗?
cron 工作类似于:
lynx -auth 用户名:密码 website.com/crawler.php?group=1
lynx -auth 用户名:密码 website.com/crawler.php?group=2
lynx -auth 用户名:密码 website.com/crawler.php?group=3 等
爬虫脚本从数据库中访问18个来源,获取最新的9篇文章页面并爬取内容,分析并根据结果将其存储在数据库中。