我正在构建一个蜘蛛,它将遍历各种站点并对其进行数据挖掘。
由于我需要分别获取每一页,这可能需要很长时间(可能是 100 页)。我已经将 set_time_limit 设置为每页 2 分钟,但无论如何 apache 似乎都会在 5 分钟后终止脚本。
这通常不是问题,因为这将从 cron 或类似的没有此时间限制的东西运行。但是,我也希望管理员能够通过 HTTP 接口手动启动获取。
apache 在整个持续时间内保持活动状态并不重要,我将使用 AJAX 触发一次获取并偶尔使用 AJAX 进行检查。
我的问题是如何从 PHP 脚本中开始提取,而不会在调用它的脚本死亡时终止提取。
也许我可以使用 system('script.php &') 但我不确定它是否能解决问题。还有其他想法吗?