我想使用 selenium/webdriver 来模拟浏览器并用它抓取一些网站内容。即使它不是最快的方法,对我来说它也有很多优点,比如执行脚本等。
对于许多网站,禁止通过自动化方法访问它们,例如 google 或 bing 等搜索引擎。
对于一种工具,我需要从谷歌中抓取几个关键字的估计结果统计。这将如下所示:模拟访问 google.com 并输入关键字并抓取结果的浏览器,然后在稍作停顿后键入下一个关键字,抓取结果等等......
我的问题是:网站是否有可能识别出我正在使用 selenium 来模拟浏览器,而不是手动使用浏览器?尤其是google的案例让我有些疑惑。我知道 selenium 部分是由谷歌开发的,或者至少是由为谷歌工作的一些人开发的。那么是否会给 selenium 留下一些指纹,或者是否无法决定我是自己使用浏览器还是由 selenium 模拟,即使对于谷歌也是如此?