0

我正在编写一个工具来抓取电子邮件中的网址,以便用户可以进行有针对性的搜索。有没有办法告诉被访问的 URL 我们是一个爬虫,这样用户就不会从邮件列表中订阅或取消订阅,或者 URL 中的其他操作不太可能被执行。

否则,是否有任何聪明的方法可以普遍地发现一个 URL 只能由希望采取某些行动的人访问?

4

2 回答 2

1

无论如何,一种有用的方法是遵守站点根目录中可用的任何 robots.txt 文件。

网站作者应该进行此设置,以便任何爬虫远离他们不希望他们进入的区域。

斯图尔特。

于 2012-08-21T07:41:21.883 回答
0

一般来说,没有。

没有办法可靠地推断给定的 URL 是否“做了”任何特别的事情(我想你可以寻找模式,例如“取消订阅”,但这几乎不可靠)。

在发出 HTTP 请求时,没有可以设置的魔法“我是机器人”标志。

于 2012-05-12T12:06:47.233 回答