1

我编写了一个 php 网络爬虫来索引仅 180 个特定来源的内容,但每页平均需要 2 秒来分析、抓取和保存我想要的内容:图像、网址、标题、完整内容、摘录、标签。(有几种算法可以分析所有元标记以获取正确的数据)

我只抓取最新的 9 篇文章页面,所以每个来源需要 18-25 秒。

我创建了 10 个不同的 cron 作业(它们之间 6 分钟),所以每个可以处理 18 个源(大约 350 秒)。

这似乎非常低效,特别是如果我想达到 1k 来源。我应该修改什么?

ps:我在共享主机上测试它,专用服务器会大大减少时间吗?

cron 工作类似于:

lynx -auth 用户名:密码 website.com/crawler.php?group=1

lynx -auth 用户名:密码 website.com/crawler.php?group=2

lynx -auth 用户名:密码 website.com/crawler.php?group=3 等

爬虫脚本从数据库中访问18个来源,获取最新的9篇文章页面并爬取内容,分析并根据结果将其存储在数据库中。

4

1 回答 1

1

老实说,不要为此使用 cron 作业。设置一个守护进程,它将一直运行。如果它崩溃等重生。

http://pear.php.net/package/System_Daemon

于 2012-09-26T15:49:05.990 回答