0

我已经建立网站好几年了,主要是在 php 中。有几个站点有 cronjobs,通常每天运行一次。cronjobs 运行的 php 文件与提供站点页面的文件一起存储在服务器上。

我知道各种爬虫,无论是合法的还是非法的,都会访问我网站的各个页面。现在,如果爬虫访问我的一个 cronjob 文件,这将激活 cronjob,有时会产生不良结果。

我很确定这从未发生过,虽然我很感激,但我正在努力理解为什么。当然,我的任何 cronjob url 都没有任何链接,但我很确定各种爬虫已经访问了其他页面,即使它们从未链接到。

其他开发人员如何解决此问题?在 robots.txt 文件中添加一行?设置 cronjob-relate php 文件的权限?

提前致谢。

4

2 回答 2

9

不要将任何 cron 脚本存储在可公开访问的目录中。

于 2011-02-25T22:38:09.370 回答
0

连同@Jeff 的精彩回答:

搜索引擎抓取您的页面的唯一方法是是否有链接到它。这可能是您网站上的另一个页面、其他人网站上的页面或您自己的站点地图。

无论如何,您的 cron 作业都不应该从外部直接访问。

于 2011-02-25T22:45:25.623 回答