0

我已经开发了一个网络爬虫,现在我想尊重我正在爬取的网站的 robots.txt 文件。

我看到这是 robots.txt 文件结构:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

我可以逐行阅读,然后使用带空格字符的爆炸作为分隔符来查找数据。

有没有其他方法可以加载整个数据?

这种文件是否有一种语言,就像 XPath 一样?

还是我必须解释整个文件?

欢迎任何帮助,甚至链接,如果找到重复...

4

1 回答 1

1

结构非常简单,所以你能做的最好的事情可能就是自己解析文件。我会逐行阅读,如您所说,查找诸如 User-agent、Disallow 等关键字。

于 2012-08-14T13:49:14.003 回答