1

我有一个带有一些链接和邮件 ID 的主页,我需要停止从该网页抓取我的网址和邮件 ID……我使用了 robots.txt,但大多数不良爬虫不会尊重这一点……

4

3 回答 3

0

使用对真实用户隐藏的蜜罐链接。禁止 robots.txt 中的 url 并在其上添加 nofollow,这样可敬的引擎就不会命中它。页面加载时使用 javascript 隐藏链接,以便合法用户不会点击它。暂时阻止点击链接的任何人的 IP 或会话。

于 2010-11-19T19:09:41.093 回答
0

好吧,您总是可以尝试使用 javascript 或图像或其他东西来混淆您的 URL。但请不要那样做。您只会激怒使用旧浏览器的人和使用屏幕阅读器的盲人。只需使用垃圾邮件过滤器来阻止人们向您的电子邮件地址发送垃圾邮件。

如果您有一个内容繁多的网站,并且您想阻止人们抓取您的内容,您可以尝试将访问者限制为每十秒点击十次。这对大多数访问者来说已经足够了,但它会显着降低内容抓取工具的速度。您可以随时调整此算法,并禁止严重违规者的 IP。

于 2010-09-03T11:05:33.890 回答
0

您可以对一些链接进行编码foo@bar.com,例如,而不是foo@bar.com.

于 2010-09-03T11:07:22.397 回答