0

我有一个包含一些受限内容的网站。我希望我的网站出现在搜索结果中,但我不希望它公开。

有没有一种方法可以让爬虫爬过我的网站但阻止它们公开?

我找到的最接近的解决方案是Google First Click Free,但即使它也需要我第一次显示内容。

4

4 回答 4

6

为什么您要允许人们搜索他们单击链接后无法访问的页面?它在技术上可能使其变得困难(如果用户代理包含'googlebot',请检查您的身份验证代码,尽管如果他们想要您的内容足够糟糕,没有什么可以阻止人们伪造这个用户代理)但在很大程度上毫无意义。

谷歌的官方线路(IIRC,虽然在任何地方都找不到)是你可能会因为故意试图向 googlebot 显示人类用户看到的不同内容而受到惩罚。

于 2010-10-18T05:53:53.783 回答
2

您几乎被锁定在 Google First Click Free 中。您唯一的其他解决方案是冒险违反他们的网站管理员规则。

如果您确实使用 Google First Click Free,则可以保护您的某些内容。一种方法是对较长的文章或论坛进行分页,并且不允许抓取额外的内容。然后可以提示寻找其余内容的用户注册您的网站。

一种更高级的方法是允许对您的所有内容进行爬网和索引。通过分析识别您更有价值的内容;然后让 Google 知道您不想再抓取“附加”或辅助页面(通过 rel=、meta robots、x-robots 等)。确保你也没有归档这些页面,这样人们就不能通过谷歌缓存后门访问内容。您有效地允许用户获取主要内容,但如果他们想阅读更多内容,则必须注册才能获得访问权限。

这可以被视为“灰色”帽子,因为您确实没有违反任何网站管理员指南,但是您正在创建一个不常见的实现。您没有向用户提供不同的内容,您明确告诉 Google 您做什么和不希望抓取什么,同时您也在保护您网站的价值。

当然,像这样的系统并不是那么容易实现自动化,但是如果你环顾四周,你会看到出版物或某些论坛/留言板在做类似的事情。

于 2010-10-20T04:20:54.427 回答
1

并不真地。

您可以为来自已知搜索引擎的请求设置一个 cookie,并允许这些请求访问您的内容,但这不会阻止人们欺骗他们的请求,或者使用谷歌翻译之类的东西来代理信息。

于 2010-10-18T05:54:17.567 回答
1

谷歌自定义搜索引擎有它自己的索引。http://www.google.com/cse/manage/create所以你基本上可以通过按需索引将所有网站推送到谷歌自定义搜索http://www.google.com/support/customsearch/bin/topic.py ?hl=en&topic=16792并在此后不久阻止真正的 googlebot 再次访问它和/或通过 google 网站管理员工具将其踢出。

但这将是很多黑客行为,并且您的网站可能会在某个时候逃到野外(或者您有时会将其从按需索引中踢出)。

和/或你可以购买你自己的小谷歌(称为谷歌企业)http://www.google.com/enterprise/search/index.html然后你的谷歌可以访问它,但它不会得到 pub。可用的。

但再次阅读您的问题:这可能不是您想要的?不是吗?

于 2010-10-19T10:11:43.030 回答