robots.txt - 使 PHP Web Crawler 尊重任何网站的 robots.txt 文件

Question

我已经开发了一个网络爬虫，现在我想尊重我正在爬取的网站的 robots.txt 文件。

我看到这是 robots.txt 文件结构：

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

我可以逐行阅读，然后使用带空格字符的爆炸作为分隔符来查找数据。

有没有其他方法可以加载整个数据？

这种文件是否有一种语言，就像 XPath 一样？

还是我必须解释整个文件？

欢迎任何帮助，甚至链接，如果找到重复...

score 1 · Accepted Answer

结构非常简单，所以你能做的最好的事情可能就是自己解析文件。我会逐行阅读，如您所说，查找诸如 User-agent、Disallow 等关键字。

1 回答 1