假设我创建了一个网页抓取 PHP 页面 ( getdata.php
),它通过 cUrl 获取特定网站页面的内容,而不是将一些有用的信息保存到 txt 文件或数据库中。
的伪代码getdata.php
,
min = get latest search id from database
max = 1.000.000 (yes one million different pages)
while (min < max) {
url = "http://www.website.com/page.php?id=".$min
content = getContentFromURL(url)
saveUsefulInfoToDb(content)
min++
set latest search id as min in database
}
没关系,流程是,
getdata.php
在浏览器上打开- 等待
- 还是等等吧,因为大约有一百万页会被刮掉。
- 等待
- 最后请求超时。
- 失败
所以问题是我不知道如何使这个过程合理。在浏览器上打开页面并等待它完成抓取 URL,我认为这是一个非常糟糕的做法。
如何让 getdata.php 像 cron 一样在后台运行?
最好的方法是什么?
谢谢。