2

我对抓取 craigslist 感兴趣,仅出于对博客文章的数据分析的目的(即,没有商业或经济利益,没有发帖/发送电子邮件,没有个人数据收集,没有共享被抓取的数据)。他们的 robots.txt 文件如下:

User-agent: *
Disallow: /reply
Disallow: /fb/
Disallow: /suggest
Disallow: /flag
Disallow: /mf
Disallow: /eaf

我打算不访问这些目录,只是查看帖子,然后从帖子正文中收集文本。robots.txt 文件中似乎不允许这样做。但是,Craigslist 使用条款具有以下条目(相关位以粗体显示):

利用。您同意不使用或提供与 CL 交互或互操作的软件(通用网络浏览器和电子邮件客户端或我们明确许可的软件除外)或服务,例如用于下载、上传、发布、标记、发送电子邮件、搜索或移动使用。禁止使用机器人、蜘蛛、脚本、抓取工具、爬虫等,以及误导、不请自来、非法和/或垃圾邮件发布/电子邮件。您同意不收集用户的个人和/或联系信息(“PI”)。

那么我应该假设我的机器人在整个站点中都被禁止,或者只是在 robots.txt 的 Disallowed 目录中被禁止?如果是前者,那么我对 robots.txt 文件有什么误解?如果是后者,那么我可以假设他们不会禁止我的 IP,因为我遵守 robots.txt 吗?

4

1 回答 1

0

他们以 rss 格式提供数据。右下角有一个 rss 链接,可将您带到 ?format=rss

例如:https ://losangeles.craigslist.org/search/sss?format=rss

我的猜测是,如果您要重新分发帖子内容、将电子邮件收集到垃圾邮件等,这种事情确实是不允许的。这可能取决于您如何使用数据。如果您只是收集统计信息,也许这是可以接受的,但我真的不知道。对于律师来说可能是一个更好的问题。

于 2016-12-29T21:29:41.117 回答