Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
假设我有一个wget用于抓取其他网站的网站。我想为网站所有者提供不被我的网站抓取的机会。wget他们应该在文件中使用机器人名称robots.txt,还是我必须创建其他名称?
wget
robots.txt
常见的做法是禁止所有并只允许最流行的 UA,如下所示:
User-agent: Google Disallow: User-agent: * Disallow: /
wget所以我认为你使用这种方式没有任何问题
似乎想要阻止机器人的网站会使用通配符来阻止它们,而不是有选择地 - 那里有太多的用户代理,太多了,无法全部列出。
所以只要 wget 有一个默认的用户代理(我认为它有),我就会坚持下去。