php - 如何为网络爬虫设置有效的 cron 作业

Question

我编写了一个 php 网络爬虫来索引仅 180 个特定来源的内容，但每页平均需要 2 秒来分析、抓取和保存我想要的内容：图像、网址、标题、完整内容、摘录、标签。（有几种算法可以分析所有元标记以获取正确的数据）

我只抓取最新的 9 篇文章页面，所以每个来源需要 18-25 秒。

我创建了 10 个不同的 cron 作业（它们之间 6 分钟），所以每个可以处理 18 个源（大约 350 秒）。

这似乎非常低效，特别是如果我想达到 1k 来源。我应该修改什么？

ps：我在共享主机上测试它，专用服务器会大大减少时间吗？

cron 工作类似于：

lynx -auth 用户名：密码 website.com/crawler.php?group=1

lynx -auth 用户名：密码 website.com/crawler.php?group=2

lynx -auth 用户名：密码 website.com/crawler.php?group=3 等

爬虫脚本从数据库中访问18个来源，获取最新的9篇文章页面并爬取内容，分析并根据结果将其存储在数据库中。

score 1 · Accepted Answer

老实说，不要为此使用 cron 作业。设置一个守护进程，它将一直运行。如果它崩溃等重生。

1 回答 1