5

我正在为客户进行重新设计。在新网站上,我想使用 Google 自定义搜索 (CSE) 作为搜索引擎。当我在开发中时,我不能让谷歌索引新网站,因为这将是一个可怕的重复和半完成的页面在谷歌索引中游荡。

那么,如何在发布之前在我的开发站点上测试和优化来自 Google CSE 的搜索结果?

谢谢,丹尼尔

4

3 回答 3

3

您的网站必须添加到您的网站管理员工具帐户。一旦我添加了我的测试站点,我就可以使用索引中的 robots.txt 文件来爬取站点搜索的页面,该文件不允许站点搜索。

我能够抓取该页面,但为了验证我检查了网站管理员工具中的 url,它说该页面仍然隐藏在主谷歌索引中。我将这个相同的 url 添加到自定义搜索索引中,如果找到它就好了。

因此,这将有效地允许您搜索您的测试站点,但将其隐藏在世界搜索中。

在此处输入图像描述

于 2013-08-19T17:48:58.090 回答
3

截至 2016 年 11 月,这仍然是不可能的。我意识到这是在提出问题多年后,但我一直在努力做到这一点。这是我从对 Google 支持的查询中得到的(令人失望的)回复。

Google Site Search 将仅返回以下 URL 作为结果:

  1. 在站点中添加以搜索配置和
  2. 索引

我想通知您 GSS 托管在 Google 的基础架构上,并使用与 Google.com 相同的技术。无法在 GSS 内部获取页面索引,但不能在 Google 的主索引中获取。

GSS 只能索引和抓取那些公开且可通过 Internet 访问的文档。

GSS 和 Google.com 使用相同的爬虫和相同的索引服务器。因此,如果您阻止访问 google.com,您的网页也不会被编入索引并在 GSS 结果中提供。

于 2016-11-09T14:12:16.183 回答
0

您可以使用机器人避免某些页面被索引

网站所有者使用 /robots.txt 文件向网络机器人提供有关其网站的说明;这称为机器人排除协议。

它的工作原理是这样的:机器人想要访问一个网站 URL,比如 http://www.example.com/welcome.html。在此之前,它首先检查http://www.example.com/robots.txt,然后发现:

User-agent: *
Disallow: /

“用户代理:*”表示本节适用于所有机器人。“禁止:/”告诉机器人它不应该访问站点上的任何页面。

查看文档,我找不到关于 robots.txt 的任何信息,所以不确定它是否受到尊重。但是查看文档说您可以手动删除它或设置过期日期sitemap.xml

于 2013-05-02T12:51:42.210 回答