我对抓取 craigslist 感兴趣,仅出于对博客文章的数据分析的目的(即,没有商业或经济利益,没有发帖/发送电子邮件,没有个人数据收集,没有共享被抓取的数据)。他们的 robots.txt 文件如下:
User-agent: *
Disallow: /reply
Disallow: /fb/
Disallow: /suggest
Disallow: /flag
Disallow: /mf
Disallow: /eaf
我打算不访问这些目录,只是查看帖子,然后从帖子正文中收集文本。robots.txt 文件中似乎不允许这样做。但是,Craigslist 使用条款具有以下条目(相关位以粗体显示):
利用。您同意不使用或提供与 CL 交互或互操作的软件(通用网络浏览器和电子邮件客户端或我们明确许可的软件除外)或服务,例如用于下载、上传、发布、标记、发送电子邮件、搜索或移动使用。禁止使用机器人、蜘蛛、脚本、抓取工具、爬虫等,以及误导、不请自来、非法和/或垃圾邮件发布/电子邮件。您同意不收集用户的个人和/或联系信息(“PI”)。
那么我应该假设我的机器人在整个站点中都被禁止,或者只是在 robots.txt 的 Disallowed 目录中被禁止?如果是前者,那么我对 robots.txt 文件有什么误解?如果是后者,那么我可以假设他们不会禁止我的 IP,因为我遵守 robots.txt 吗?