0

我想用 C# 创建一个爬虫。问题是一些网站在他们的robots.txt文件中禁用了黑名单爬虫,使用:

User-agent: *
Disallow: /

有没有办法可以伪造我的请求以表明我是例如 Googlebot?

4

2 回答 2

3

HttpWebRequest.UserAgent,但是 - 我只想说:不要。

当然,您的观点 re robots.txt 是没有实际意义的;那是要遵循的。如果你编写了一个行为不端的工具,robots.txt 不管你声称自己的用户代理是什么,它都会忽略,那么你应该很快就会被列入黑名单。

特别是,试图冒充任何主要参与者都是非常可疑的。坦率地说,我希望大多数主要站点也会检查传入的 IP 范围。

于 2012-04-09T10:34:19.617 回答
0

是的,HttpWebRequest 具有用户代理的属性。您可以将其设置为任何内容。

于 2012-04-09T10:34:11.447 回答