1

我在这里和超级用户之间来回切换。如果你觉得这不属于这里,请原谅。

我正在观察此处描述的行为- Googlebot 正在我的网站上请求随机网址,例如aecgeqfx.htmlor sutwjemebk.html。我确信我不会从我网站上的任何地方链接这些网址。

我怀疑这可能是谷歌探索我们如何处理不存在的内容 - 从链接问题的答案中引用:

 [google is requesting random urls to] see if your site correctly 
 handles non-existent files (by returning a 404 response header)

我们有一个用于不存在内容的自定义页面 - 一个样式页面显示“找不到内容,如果您认为自己误入了这里,请联系我们”,带有一些内部链接,(自然)使用200 OK. 直接提供 URL(不重定向到单个 url)。

恐怕这可能会在谷歌上歧视该网站 - 他们可能不会将用户友好页面解释为,404 - not found并且可能认为我们试图伪造某些东西并提供重复的内容。

我应该如何确保谷歌不会认为该网站是虚假的,同时向用户提供用户友好的信息,以防他们意外点击死链接?

4

3 回答 3

6

最佳实践是返回带有 404 响应代码而不是 200 的用户友好 404 页面。您的 Web 服务器应该相对容易地为您处理这个问题。

于 2010-03-30T18:05:23.470 回答
2

您仍然可以发送 404 状态并在同一响应中为死链接提供用户友好的消息。即使页面看起来不像典型的失败页面,即使“普通用户”也应该获得 404 状态。您如何拦截请求取决于您的网络服务器。这比检测用户代理和为 Googlebot 做一些不同的事情要容易得多。

于 2010-03-30T18:02:52.943 回答
2

在apache中使用errordocument

ErrorDocument 500 http://foo.example.com/cgi-bin/tester
ErrorDocument 404 /cgi-bin/bad_urls.pl
ErrorDocument 401 /subscription_info.html
ErrorDocument 403 "Sorry can't allow you access today"

错误文档可以是您想要的任何内容。例如,如果您使用的是 PHP,您可以创建一个名为 error404.php 的文件,如下所示:

<?php
header("HTTP/1.0 404 Not Found");

echo 'Hi, this page does not exist...<img src="nice-logo.png" alt="logo" />'


?>

唯一重要的是响应必须在标头中包含正确的 404 代码- 由 Apache、PHP 或任何其他动态脚本输出。

有趣的 404 示例:http ://www.northernbrewer.com/brewing/weekly_fermenterd

于 2010-03-30T18:03:54.093 回答