3

我有一个非常简单的 web 应用程序,它在 HTML5 的 Canvas 中运行,没有任何需要由搜索引擎索引的公共文件(除了包含对所有必要资源的调用的首页 HTML 文件之外)。因此,我真的不需要robots.txt文件,因为他们只会看到公共文件,仅此而已。

现在,开个玩笑,每当网络爬虫请求robots.txt. 但是,如果这最终会让我在搜索结果中的位置方面搞砸了,那么这对我来说不是一个非常值得的玩笑。

有人知道不同的网络爬虫如何响应非标准(尽管在这种情况下它在技术上是标准的)HTTP 代码吗?

此外,更严肃地说,是否有任何理由拥有一个robots.txt文件,上面写着“一切都是可索引的!” 而不是没有文件?

4

1 回答 1

1
  1. 拥有一个空白 robots.txt 文件还会告诉爬虫您希望将所有内容编入索引。robots.txt有一个allow指令,但它是非标准的,不应依赖。这样做很好,因为每当搜索引擎尝试从您的站点请求不存在的 robots.txt 时,它可以防止 404 错误堆积在您的访问日志中。

  2. 发送非标准 HTTP 代码不是一个好主意,因为您完全不知道搜索引擎将如何响应它。如果他们不接受它,他们可能会使用 404 标头作为后备,这显然不是您想要发生的。基本上,这是一个开玩笑的坏地方。

于 2011-11-16T06:24:12.763 回答