今天,一些爬虫通过了我的网站,并试图访问几个 css、js、图像和其他文件。这也是一个聪明的方法,它也解释了 javascript 并希望执行一个在 javascript 代码中组装(并且只知道)的 url!这让我很担心分配。
尽管我在网站上的代码检测到了这种奇怪的行为并向我发送了三封关于它的电子邮件(这是我过去制作的一个拦截器类,它运行良好并阻止了进一步的访问(在攻击者停止三次攻击后),我希望最大限度地消除这些坏人,以减少网络流量、保护服务和花在这个 b*llsh*t 上的时间。
所以我只是在想,将剥离的 html 文件内容(没有表单、css 和 js 声明)发送到机器人/爬虫,但它不能影响好的内容。这背后的想法是爬虫不需要标记的东西,只有内容很重要,对吧?只有坏人会尝试访问对排名不重要的文件....但是当它不存在时,没有什么可担心的。所以我的问题是:
这样做是否安全,我的意思是,谷歌不会“认为”你伪造内容吗?为爬虫移除部分与原始内容略有不同。
有没有人有这方面的经验?
PS:对我来说,这很容易实现,因为我的模板系统可以使用用户代理/设备特定条件来服务例如另一个标记或设置。为了让您了解它是如何工作的,这里是一个手持设备的示例:
<!-- #IF $is_handheld -->
<!-- iPhone, iPad mobile/handheld devices -->
<meta name="viewport" content="width=device-width,initial-scale=0.9,maximum-scale=2.0,user-scalable=1" />
<meta name="apple-mobile-web-app-capable" content="yes" />
<!-- #ENDIF -->
这是我想实现的一个例子:
<!-- #IF !$is_robot -->
<link rel="stylesheet" type="text/css" charset="utf-8" href="css/dialog.css" />
<link rel="stylesheet" type="text/css" charset="utf-8" href="css/general.css" />
<script rel="combine,minify" type="text/javascript" charset="utf-8" src="js/general.js"></script>
<!-- #ENDIF -->