0

在我看来是不明智的。

例如检查这个:

http://edition.cnn.com/robots.txt
http://www.bbc.co.uk/robots.txt
http://www.guardian.co.uk/robots.txt

据此:

http://www.joomla.org/robots.txt

Joomla.org 没有更改默认管理文件夹:D

例如 prestashp 页面有一个空白的 robots.txt 文件,它并不完美,但在我看来至少更好:

http://www.prestashop.com/robots.txt

这些人是愚蠢的还是他们认为知道他们的网络结构是什么样子就可以了?

为什么他们不使用 htaccess 拒绝机器人等的访问?

4

1 回答 1

1

问题是.htaccess不能直观地告诉访问者是搜索引擎机器人。

大多数机器人会在用户代理字符串中识别自己,但有些不会。

所有希望索引该站点的机器人都可以访问 Robots.txt,不道德的机器人不会这样做

  1. 将自己标识为机器人
  2. 请注意 robots.txt(否则他们会故意不遵守)。
于 2012-07-05T10:28:52.730 回答