-2

我在我的网站上运行了一个简单的网络爬虫,它下载了整个网站的源代码。

是否可以阻止网络爬虫从您的网站下载/保存任何 php 代码?如果没有加密,robots.txt 中是否有简单的禁止规则,或者网络爬虫通常可以下载任何网站的整个源代码?

4

3 回答 3

2

只要您从他们的网站访问页面,您就应该没问题。对于那些感到困惑的人,提问者似乎正在运行他们自己的爬虫,并且因为它正在获取本地地址,所以它正在本地抓取文件。

所以确保它通过http访问它,以防止源代码被爬取。

特别是对于您的代码,在再次递归到该函数之前,请检查您的域中的 url 是否是绝对的(以http://domain.tld 开头),如果不是,则使其成为这种方式(简单地添加它是行不通的如果您的网站上有相对 url,它会更复杂,请考虑使用 PHP 将相对 url 更改为绝对。)

于 2013-11-09T13:15:16.107 回答
1

网络爬虫只下载网站的 html 内容。它无法访问您的 php 脚本。

于 2013-11-09T12:46:54.653 回答
0

如果您确保您有.php文件的扩展名,您的站点将在提供 PHP 源代码时呈现它,机器人将无法下载源代码。它只会看到 PHP 生成的 HTML,就像其他访问该站点的人一样。

于 2013-11-09T12:47:41.787 回答