2

我写了一个非常强大的保护类“BlockIp”,它可以使用带有 IP 的黑名单,可以检测奇怪的 IP 配置,还可以阻止代理。

当它找到一个时,我会收到一封关于访问者的详细电子邮件,它被阻止的原因以及他们试图做什么(当然每天一次)。看起来它工作得很好,因为我过去收到了一些被这个类阻止的真实攻击。它不会阻止合法的机器人,但要测试检测方法是否正确并不容易。

今天我收到一封来自班级的电子邮件,它已经阻止了“ crawl-6-249-76-64.googlebot.com ”,它自称是谷歌机器人。我在网上搜索它是否被列入黑名单,但在任何地方都没有发现它被列入黑名单。在谷歌搜索“66.249.76.64”时,我发现许多站点都列出了该 IP。

我收到了来自班级的两封错误电子邮件。第一个是当“bot”尝试访问“robots.txt”时,第二个是当它尝试访问站点的根目录时。

我的问题是:这是不是谷歌机器人?(如果属实,则检测有问题,我必须修复它)。在谷歌的ip-range中没有找到IP:http: //chceme.info/ips/

这里有一些关于机器人的信息:

Ticket ID : {EVNT_117162_2013011220130110_32925_19904}
Event type : Access blocked
Event date : 01/12/2013 - 03:53:01 (server date-time)
Event counter : First occurring
Processed url : mysite/robots.txt
From url : Unknown or direct link
Domain : mysite
Domain IP : 000.000.000.000
Visitor IP : 66.249.76.64
Proxy IP : (not present)



Problem : Potential danger detected - 66.249.76.64
Hostname : crawl-66-249-76-64.googlebot.com
Block : Yes
Refferer : (direct access)
AgentString : Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Browser : Mozilla 5.0
Platform : Unknown Platform
Robot : Yes - Googlebot
Mobile : No
Tablet : No
Console : No
Crawler : Yes
Agent_type : crawler
Agent_name : googlebot
Agent_version : 2.1
Os_type : unknown
Os_name : unknown
Agent_languagetag : en
Status : ok
Request : 66.249.76.64
Languagecode : us
Country : United States
Region : California
City : Mountain View
Zipcode : 94043
Latitude : 37.3861
Longitude : -122.084
Timezone : -08:00
Areacode : 650
Dmacode : 807
Continentcode : na
Regioncode : ca
Currencycode : USD
Currencysymbol : $
Currencysymbol_utf8 : $
Currencyconverter : 1
Extended : 1
4

1 回答 1

2

首先,是的,这是谷歌。您可以按照此处所述验证 Google Bot: https: //support.google.com/webmasters/bin/answer.py?hl=
en&answer=80553 顺便说一句:“第一个是“bot”尝试访问 "robots.txt" " 应该始终允许机器人访问 /robots.txt

于 2013-01-12T13:25:01.283 回答