7

I'm going to block all US IPs using .htaccess this way :

<Limit GET HEAD POST>
order deny,allow
deny from 3.0.0.0/8
deny from 4.0.0.0/25
deny from 4.0.0.128/26
deny from 4.0.0.192/28
deny from 4.0.0.208/29
....
allow from all
</Limit>

Will Google be able to access and index my website after blocking all US IPs?

EDIT : Sorry for the ambiguity, but I DO want Google to index my website.

4

5 回答 5

14

尽管谷歌的服务器遍布全球,但很难说搜索引擎的机器人主要来自哪里。我的建议是阻止 IP 范围,但添加一个与User-Agent搜索机器人匹配的排除子句,例如:

SetEnvIfNoCase User-Agent (googlebot|bingbot|yahoo!\sslurp) is_search_bot

<Directory /docroot>
    Order Deny,Allow

    Deny from 3.0.0.0/8
    Deny from 4.0.0.0/25
    Deny from 4.0.0.128/26
    Deny from 4.0.0.192/28
    Deny from 4.0.0.208/29

    Allow from env=is_search_bot
</Directory>
于 2013-10-10T18:11:05.653 回答
1

我不这么认为,但如果你真的不让谷歌索引它,那么使用一个 robots.txt 文件,这样它就不会索引它。robots.txt 将是

User-agent: googlebot Disallow: /directory/ 

如果只是阻止美国 ip 的问题,那么你可能很好,因为谷歌在许多不同的地方都有数据中心,而不仅仅是美国。这意味着谷歌可能仍会将其编入索引。

于 2013-10-07T02:47:56.450 回答
0
于 2013-10-16T04:19:06.863 回答
0

如果您无法访问您的域根目录,只需使用此元标记来阻止 google bot 索引特定页面:

<meta name="googlebot" content="noindex">

如果您的网站已被 Google 爬虫索引,请按照指南从 Google 搜索结果中删除您自己的内容

于 2013-10-16T00:33:16.163 回答
0

虽然谷歌有很多数据中心,但他们所有的机器人都在美国,所以如果你阻止我们的 ips,谷歌将无法扫描你的网站

于 2013-10-11T19:50:14.753 回答