我手头有一个案例,我必须超级确定谷歌(或任何雅虎/必应)不会索引特定内容,所以冗余越多越好。
据我所知,有 3 种方法可以做到这一点,我想知道是否还有更多(冗余是关键):
- 将元标记设置为无索引
- 在 robots.txt 中禁止受影响的 url 结构
- 通过ajax发布加载内容
所以,如果这都是方法,很好,但如果有人有一些想法如何更确定:D
(我知道这有点疯狂,但如果内容以某种方式出现在谷歌中,这对我的公司来说会变得非常昂贵:'-( )
呃,还有很多
a) 识别 googlebot(与其他机器人类似) http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=80553 并且不向他们显示内容
b) 使用 HTTP 404 / HTTP 410 标头而不是 HTTP 200 返回这些页面
c) 仅向带有 cookie / 会话的客户端显示这些页面
d)将整个内容呈现为图像(然后禁止图像)
e) 将整个内容呈现为图像数据 URL(则不需要禁止)
f) 用户管道 | 在 URL 结构中(在 google 中工作,不知道其他页面)
g) 使用只能工作 5 分钟的动态 URL
这些只是我脑海中的一些……可能还有更多
好吧,我想您可能需要某种注册/身份验证才能查看内容。
我们在我的工作中通过 ajax 方法使用后加载内容,它工作得很好。如果在没有 xhr 标头的情况下命中相同的 ajax 路由,您只需要确保您没有返回任何内容。(不过,我们将它与授权结合使用。)
我只是认为如果不实际锁定某种身份验证背后的数据,无论如何都不能完全确定。如果它上市后对您的公司来说会很昂贵,那么您可能需要认真考虑一下。
使用 .htaccess 中的搜索引擎用户代理阻止来自搜索引擎的 IP 和请求怎么样?
它可能需要对 IP 和用户代理列表进行更多维护,但它会起作用。