我想用 C# 创建一个爬虫。问题是一些网站在他们的robots.txt文件中禁用了黑名单爬虫,使用:
User-agent: *
Disallow: /
有没有办法可以伪造我的请求以表明我是例如 Googlebot?
我想用 C# 创建一个爬虫。问题是一些网站在他们的robots.txt文件中禁用了黑名单爬虫,使用:
User-agent: *
Disallow: /
有没有办法可以伪造我的请求以表明我是例如 Googlebot?
HttpWebRequest
有.UserAgent
,但是 - 我只想说:不要。
当然,您的观点 re robots.txt 是没有实际意义的;那是你要遵循的。如果你编写了一个行为不端的工具,robots.txt
不管你声称自己的用户代理是什么,它都会忽略,那么你应该很快就会被列入黑名单。
特别是,试图冒充任何主要参与者都是非常可疑的。坦率地说,我希望大多数主要站点也会检查传入的 IP 范围。
是的,HttpWebRequest 具有用户代理的属性。您可以将其设置为任何内容。