1

我什至不确定这是否是处理此问题的最佳方法,但我在重写时犯了一个暂时的错误,谷歌(可能是其他人)发现了它,现在它已将它们编入索引并不断出现错误。

基本上,我是根据多种因素生成 URL,其中一个是自动生成的文章 id。然后这些重定向到正确的位置。

我第一次不小心设置了这样的东西:

/2343/新闻/blahblahblah

/7645/评论/blahblahblah

等等。

这是一个有很多原因的问题,主要原因是会有重复,而且东西没有指向正确的地方和 yada yada。我现在将它们修复为:

/新闻/2343/blahblahblah

/评论/7645/blahblahblah

等等。

这一切都很好。但我想阻止任何属于第一个模式的东西。换句话说,任何看起来像这样的东西:

* * = 任何数字模式

/ * */anythingelsehere

这样 Google(以及任何其他可能索引了错误内容的人)就不再试图寻找这些被弄乱了甚至不再存在的 URL。这可能吗?我什至应该通过 robots.txt 执行此操作吗?

4

2 回答 2

1

您不需要为此设置 robots.txt,只需为这些网址返回 404 错误,Google 和其他搜索引擎最终会删除它们。

谷歌也有网站管理员工具,您可以使用这些工具来对 url 进行索引。我很确定其他主机也有类似的东西。

于 2012-11-13T04:03:55.937 回答
1

回答这个问题:是的,您可以阻止任何以数字开头的 URL。

User-agent: *
Disallow: /0
Disallow: /1
Disallow: /2
Disallow: /3
Disallow: /4
Disallow: /5
Disallow: /6
Disallow: /7
Disallow: /8
Disallow: /9

它会阻止以下 URL:

  • example.com/1
  • example.com/2.html
  • example.com/3/foo
  • example.com/4you
  • example.com/52347612

这些 URL 仍将被允许:

  • example.com/foo/1
  • example.com/foo2.html
  • example.com/bar/3/foo
  • example.com/only4you
于 2012-11-14T13:53:00.803 回答