7

*编辑: 此问题的解决方案在此问题下方,因为无法发布答案。人们决定结束这个问题。*

最近我发现谷歌代理的一些变种访问了我的网站。我怀疑这些是合法的谷歌爬虫,因为这些爬虫并不总是在代理后面(如主机名描述的那样)并且将自己标识为浏览器。主机名的格式类似于/类似于 google bot,但添加了字符串“代理”。

我的 PHP 拦截类拦截了这些爬虫,但是拦截这些爬虫是否正确?它们是什么,这些来自谷歌还是假的?

这里有一些关于这些爬虫之一的信息:

BlockedIp Notifier Report - IP:66.249.81.131:: has been blocked

Ticket ID : {EVNT_136877_2013040520130402_33147_10348}  
Event type : Access blocked  
Event date : 04/05/2013 - 19:17:47 (server date-time)  
Event counter : First occurring  
Processed url : http://streambutler.net/  
From url : http://www.google.com/search  
Domain : streambutler.net 
Domain IP : 95.170.70.213  
Visitor IP : 66.249.81.131  
Proxy IP : 66.249.81.131  

Critical : Yes  
Action required : No  


Additional information
Problem : Bad Proxy - via 66.249.81.131 
Hostname : google-proxy-66-249-81-131.google.com 
Block : Yes 
Refferer : http://www.google.com/search 
AgentString : Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.4 (KHTML, like G... 
Browser : Chrome 22.0.1229 
Platform : Linux 
Robot : No 
Mobile : No 
Tablet : No 
Console : No 
Crawler : No 
Agent_type : browser 
Agent_name : chrome 
Agent_version : 22.0.1229 
Os_type : linux 
Os_name : linux 
Agent_languagetag : en 
Status : ok 
Request : 66.249.81.131 
Languagecode : us 
Country : United States 
Region : California 
City : Mountain View 
Zipcode : 94043 
Latitude : 37.406 
Longitude : -122.079 
Timezone : -07:00 

Available from  : \'http 
Areacode : 0 
Dmacode : 0 
Continentcode : na 
Currencycode : USD 
Currencysymbol : $ 
Currencysymbol_utf8 : $ 
Currencyconverter : 1 
Extended : 1 
Organization : NULL 

发现其他变种

  • google-proxy-66-249-81-131.google.com(将自己标识为 Firefox 6.0 ???)
  • google-proxy-66-249-81-148.google.com(尝试访问 javascript 文件)
  • google-proxy-66-249-81-131.google.com
  • google-proxy-66-249-81-111.google.com(尝试访问 javascript 文件)
  • google-proxy-66-249-81-164.google.com

编辑: 下一个是一个奇怪的,Windows 7 上的 Firefox 6.0 和与上面示例相同的 IP,但不是下一个日志中的代理?如果是移动代理,这是否很奇怪?

Ticket ID : {EVNT_164838_2013040520130402_33147_10348}  
Event type : Access blocked  
Event date : 04/05/2013 - 19:19:07 (server date-time)  
Event counter : First occurring  
Processed url : http://streambutler.net/  
From url : Unknown or direct link  
Domain : streambutler.net 
Domain IP : 95.170.70.213  
Visitor IP : 66.249.81.131  
Proxy IP : (not present)  

Critical : Yes  
Action required : No  


Additional information
Problem : Blocked Server IP address (analysis) - 66.249.81.131 
Hostname : google-proxy-66-249-81-131.google.com 
Block : Yes 
Refferer : (direct access) 
AgentString : Mozilla/5.0 (Windows NT 6.1; rv:6.0) Gecko/20110814 Firefox/6.0 ... 
Browser : Firefox 6.0 
Platform : Windows 7 
Robot : No 
Mobile : No 
Tablet : No 
Console : No 
Crawler : No 
Agent_type : browser 
Agent_name : firefox 
Agent_version : 6.0 
Os_type : windows 
Os_name : windows 7 
Agent_languagetag : en 
Status : ok 
Request : 66.249.81.131 
Languagecode : us 
Country : United States 
Region : California 
City : Mountain View 
Zipcode : 94043 
Latitude : 37.406 
Longitude : -122.079 
Timezone : -07:00 
Available from  : \'http 
Areacode : 0 
Dmacode : 0 
Continentcode : na 
Currencycode : USD 
Currencysymbol : $ 
Currencysymbol_utf8 : $ 
Currencyconverter : 1 
Extended : 1 
Organization : NULL 

编辑:解决方案:

知道了!这些“爬虫”不是爬虫,而是 Google 搜索引擎中使用的实时网站预览的一部分。

我已经尝试过,在预览中显示我的一个网站,是的,就是这样,收到了一条被阻止的 IP 消息。

如果您希望用户能够查看您网站的预览,您必须接受这些“爬虫”。

就像其他人所说:“该 URL 的根域是 google.com,并且不容易被欺骗”。

结论:您可以信任这些机器人或爬虫,它用于在谷歌搜索中显示预览。

4

1 回答 1

7

我尚未确认,但我怀疑这些 IP 可能与 Google 的 Google Chrome Mobile 数据压缩代理相关:

https://developers.google.com/chrome/mobile/docs/data-compression

如果是这种情况,阻止它们会导致您的网站对一些完全无辜的移动用户显示不正确。


它还可能与用于使用 Google +1 按钮抓取网页片段的 Google+ 爬虫相关联:

https://code.google.com/p/google-plus-platform/issues/detail?id=178

底线是,这些 IP 用于由 Google 内部发起的 Web 请求。它们不是公共网络代理。

于 2013-04-05T18:00:50.500 回答