2

我使用标准的简单重写规则在 zope 2(多个虚拟主机)前面有 apache。

我在托管的一些旧网站和 googlebot 上遇到了大问题。

说我有:

  • site.example.com/documents/
  • site.example.com/images/i.jpg
  • site.example.com/xml/
  • site.example.com/flash_banner.swf

如何阻止以下情况发生?

  • site.example.com/documents/images/xml/i.jpg
  • site.example.com/images/xml/i.jpg
  • site.example.com/images/i.jpg/xml/documents/flash_banner.swf

所有响应都来自 URI 末尾的最后一个文件夹中的正确对象,旧站点编写得不是很好,在某些情况下,Google 会进出数百个不存在但总能找到的文件夹结构排列大闪存文件。因此,Googlebot 不会一次访问 Flash 文件,而是将其从网站上拖出数千次。我正在将旧站点移至 Django。但我需要在 Zope 中停止它。过去曾尝试过 ipchains 和 mod_security,但这次它们不是一个选项。

4

1 回答 1

2

找出哪个页面向 Google 提供了相同对象的所有变体路径。然后修复该页面,使其仅使用可遍历对象的 absoute_url()、absoute_url_path() 或 virtual_url_path() 方法提供规范路径。

您还可以使用sitemaps.xmlrobots.txt告诉 Google 不要抓取错误的路径,但这绝对是一种解决方法,而不是上述的修复方法。

于 2011-08-12T16:05:08.420 回答