google-custom-search - 正在开发中的 Google 自定义搜索

Question

我正在为客户进行重新设计。在新网站上，我想使用 Google 自定义搜索 (CSE) 作为搜索引擎。当我在开发中时，我不能让谷歌索引新网站，因为这将是一个可怕的重复和半完成的页面在谷歌索引中游荡。

那么，如何在发布之前在我的开发站点上测试和优化来自 Google CSE 的搜索结果？

谢谢，丹尼尔

score 3 · Accepted Answer

您的网站必须添加到您的网站管理员工具帐户。一旦我添加了我的测试站点，我就可以使用索引中的 robots.txt 文件来爬取站点搜索的页面，该文件不允许站点搜索。

我能够抓取该页面，但为了验证我检查了网站管理员工具中的 url，它说该页面仍然隐藏在主谷歌索引中。我将这个相同的 url 添加到自定义搜索索引中，如果找到它就好了。

因此，这将有效地允许您搜索您的测试站点，但将其隐藏在世界搜索中。

在此处输入图像描述

score 3 · Accepted Answer

截至 2016 年 11 月，这仍然是不可能的。我意识到这是在提出问题多年后，但我一直在努力做到这一点。这是我从对 Google 支持的查询中得到的（令人失望的）回复。

Google Site Search 将仅返回以下 URL 作为结果：

在站点中添加以搜索配置和

索引

我想通知您 GSS 托管在 Google 的基础架构上，并使用与 Google.com 相同的技术。无法在 GSS 内部获取页面索引，但不能在 Google 的主索引中获取。

GSS 只能索引和抓取那些公开且可通过 Internet 访问的文档。

GSS 和 Google.com 使用相同的爬虫和相同的索引服务器。因此，如果您阻止访问 google.com，您的网页也不会被编入索引并在 GSS 结果中提供。

score 0 · Accepted Answer

您可以使用机器人避免某些页面被索引

网站所有者使用 /robots.txt 文件向网络机器人提供有关其网站的说明；这称为机器人排除协议。

它的工作原理是这样的：机器人想要访问一个网站 URL，比如 http://www.example.com/welcome.html。在此之前，它首先检查http://www.example.com/robots.txt，然后发现：

User-agent: *
Disallow: /

“用户代理：*”表示本节适用于所有机器人。“禁止：/”告诉机器人它不应该访问站点上的任何页面。

查看文档，我找不到关于 robots.txt 的任何信息，所以不确定它是否受到尊重。但是查看文档说您可以手动删除它或设置过期日期sitemap.xml

google-custom-search - 正在开发中的 Google 自定义搜索

3 回答 3

Related

Reference