0

这可能是一个模糊的问题,但似乎某些机器人正在抓取我的网站并且做得非常糟糕。它似乎是从我的应用程序 js 文件中猜测 ID 并将其放入 url,例如:

Couldn't find Post with id=keypress

更奇怪的是,HTTP 引用者被列为 application.js。

有谁之前经历过这个吗?关于如何阻止这些爬虫的任何想法?

4

1 回答 1

0

如果它是合法的爬虫,您可以通过将robot.txt 文件放在您的根域目录中来停止它 - http://en.wikipedia.org/wiki/Robots_exclusion_standard

您将在 robots.txt 文件中包含以下文本:

User-agent: *
Disallow: /YOUR_PATH_TO_FILE/application.js

您还可以将此标签添加到页面标题中:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

如果是恶意爬虫,这当然不会阻止它。对于不尊重 robots.txt 的爬虫,您可以采取其他方法,但这取决于您使用的网络服务器。

于 2012-08-16T18:29:12.247 回答