我已经开发了一个网络爬虫,现在我想尊重我正在爬取的网站的 robots.txt 文件。
我看到这是 robots.txt 文件结构:
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
我可以逐行阅读,然后使用带空格字符的爆炸作为分隔符来查找数据。
有没有其他方法可以加载整个数据?
这种文件是否有一种语言,就像 XPath 一样?
还是我必须解释整个文件?
欢迎任何帮助,甚至链接,如果找到重复...