我网站的一部分仅供经过身份验证的用户访问。我想知道这些页面是否被谷歌抓取,或者它们对搜索引擎有点“隐藏”。
谢谢
如果它们对未经身份验证的用户关闭,那么它们当然也对 Google 关闭。Google bot 只不过是另一个试图访问您网站的客户端。
一些像报纸这样的网站的内容是为付费用户保留的,但它们在搜索引擎中是可见的。这始终是网站管理员有意识的行为,向搜索引擎机器人开放网站,即使他们没有付费客户。
搜索引擎没有进入房子的“特殊钥匙”。
如果您仍有疑问,您可以使用“site:yourside.com”查询 google 并查看结果页面。
由于网络爬虫只是试图访问您网站的另一个客户端,因此爬虫也无法访问经过身份验证的区域。
如果您想告诉网络爬虫不要索引您网站的其他部分,请使用您放置在网站根目录中的名为 robots.txt 的文件。例如:
机器人.txt
User-agent: *
Disallow: /hidden
这将告诉所有网络爬虫不要索引“隐藏”目录中的内容。
如果您的网站有指向需要身份验证的页面的链接,那么,是的,Google 会尝试抓取它。确保不为未经身份验证的用户提供服务取决于您。
正如 Greenie 建议的那样,使用 Robots.txt 文件告诉搜索引擎不要尝试抓取您的受保护内容。
请记住,遵守 Robots.txt 中的说明是自愿的。没有什么可以阻止网络爬虫实际请求此类内容,如果是这样,Robots.txt 文件可能相当于前门上的一条消息,上面写着“这里有有价值的东西!!”。