2

假设我有一个wget用于抓取其他网站的网站。我想为网站所有者提供不被我的网站抓取的机会。wget他们应该在文件中使用机器人名称robots.txt,还是我必须创建其他名称?

4

2 回答 2

1

常见的做法是禁止所有并只允许最流行的 UA,如下所示:

User-agent: Google
Disallow:


User-agent: *
Disallow: /

wget所以我认为你使用这种方式没有任何问题

于 2013-05-05T04:02:46.057 回答
0

似乎想要阻止机器人的网站会使用通配符来阻止它们,而不是有选择地 - 那里有太多的用户代理,太多了,无法全部列出。

所以只要 wget 有一个默认的用户代理(我认为它有),我就会坚持下去。

于 2013-05-05T03:52:09.520 回答