http-headers - 如果我使用 HTTP 代码 418 AKA “我是茶壶”来响应 robots.txt 请求，这会让搜索引擎不喜欢我吗？

翻译自：https://stackoverflow.com/questions/8147522 2011-11-16T06:15:49.597

443 次

3

我有一个非常简单的 web 应用程序，它在 HTML5 的 Canvas 中运行，没有任何需要由搜索引擎索引的公共文件（除了包含对所有必要资源的调用的首页 HTML 文件之外）。因此，我真的不需要robots.txt文件，因为他们只会看到公共文件，仅此而已。

现在，开个玩笑，每当网络爬虫请求robots.txt. 但是，如果这最终会让我在搜索结果中的位置方面搞砸了，那么这对我来说不是一个非常值得的玩笑。

有人知道不同的网络爬虫如何响应非标准（尽管在这种情况下它在技术上是标准的）HTTP 代码吗？

此外，更严肃地说，是否有任何理由拥有一个robots.txt文件，上面写着“一切都是可索引的！” 而不是没有文件？

1 回答 1

1

拥有一个空白 robots.txt 文件还会告诉爬虫您希望将所有内容编入索引。robots.txt有一个allow指令，但它是非标准的，不应依赖。这样做很好，因为每当搜索引擎尝试从您的站点请求不存在的 robots.txt 时，它可以防止 404 错误堆积在您的访问日志中。
发送非标准 HTTP 代码不是一个好主意，因为您完全不知道搜索引擎将如何响应它。如果他们不接受它，他们可能会使用 404 标头作为后备，这显然不是您想要发生的。基本上，这是一个开玩笑的坏地方。

于 2011-11-16T06:24:12.763 回答