seo - 我可以在不公开的情况下允许（通过搜索引擎）对受限内容进行索引吗？

Question

我有一个包含一些受限内容的网站。我希望我的网站出现在搜索结果中，但我不希望它公开。

有没有一种方法可以让爬虫爬过我的网站但阻止它们公开？

我找到的最接近的解决方案是Google First Click Free，但即使它也需要我第一次显示内容。

score 6 · Accepted Answer

为什么您要允许人们搜索他们单击链接后无法访问的页面？它在技术上可能使其变得困难（如果用户代理包含'googlebot'，请检查您的身份验证代码，尽管如果他们想要您的内容足够糟糕，没有什么可以阻止人们伪造这个用户代理）但在很大程度上毫无意义。

谷歌的官方线路（IIRC，虽然在任何地方都找不到）是你可能会因为故意试图向 googlebot 显示人类用户看到的不同内容而受到惩罚。

score 2 · Accepted Answer

您几乎被锁定在 Google First Click Free 中。您唯一的其他解决方案是冒险违反他们的网站管理员规则。

如果您确实使用 Google First Click Free，则可以保护您的某些内容。一种方法是对较长的文章或论坛进行分页，并且不允许抓取额外的内容。然后可以提示寻找其余内容的用户注册您的网站。

一种更高级的方法是允许对您的所有内容进行爬网和索引。通过分析识别您更有价值的内容；然后让 Google 知道您不想再抓取“附加”或辅助页面（通过 rel=、meta robots、x-robots 等）。确保你也没有归档这些页面，这样人们就不能通过谷歌缓存后门访问内容。您有效地允许用户获取主要内容，但如果他们想阅读更多内容，则必须注册才能获得访问权限。

这可以被视为“灰色”帽子，因为您确实没有违反任何网站管理员指南，但是您正在创建一个不常见的实现。您没有向用户提供不同的内容，您明确告诉 Google 您做什么和不希望抓取什么，同时您也在保护您网站的价值。

当然，像这样的系统并不是那么容易实现自动化，但是如果你环顾四周，你会看到出版物或某些论坛/留言板在做类似的事情。

score 1 · Accepted Answer

并不真地。

您可以为来自已知搜索引擎的请求设置一个 cookie，并允许这些请求访问您的内容，但这不会阻止人们欺骗他们的请求，或者使用谷歌翻译之类的东西来代理信息。

score 1 · Accepted Answer

谷歌自定义搜索引擎有它自己的索引。http://www.google.com/cse/manage/create所以你基本上可以通过按需索引将所有网站推送到谷歌自定义搜索http://www.google.com/support/customsearch/bin/topic.py ?hl=en&topic=16792并在此后不久阻止真正的 googlebot 再次访问它和/或通过 google 网站管理员工具将其踢出。

但这将是很多黑客行为，并且您的网站可能会在某个时候逃到野外（或者您有时会将其从按需索引中踢出）。

和/或你可以购买你自己的小谷歌（称为谷歌企业）http://www.google.com/enterprise/search/index.html然后你的谷歌可以访问它，但它不会得到 pub。可用的。

但再次阅读您的问题：这可能不是您想要的？不是吗？

seo - 我可以在不公开的情况下允许（通过搜索引擎）对受限内容进行索引吗？

4 回答 4

Related

Reference