web-scraping - 解读 robots.txt 与使用条款

Question

我对抓取 craigslist 感兴趣，仅出于对博客文章的数据分析的目的（即，没有商业或经济利益，没有发帖/发送电子邮件，没有个人数据收集，没有共享被抓取的数据）。他们的 robots.txt 文件如下：

User-agent: *
Disallow: /reply
Disallow: /fb/
Disallow: /suggest
Disallow: /flag
Disallow: /mf
Disallow: /eaf

我打算不访问这些目录，只是查看帖子，然后从帖子正文中收集文本。robots.txt 文件中似乎不允许这样做。但是，Craigslist 使用条款具有以下条目（相关位以粗体显示）：

利用。您同意不使用或提供与 CL 交互或互操作的软件（通用网络浏览器和电子邮件客户端或我们明确许可的软件除外）或服务，例如用于下载、上传、发布、标记、发送电子邮件、搜索或移动使用。禁止使用机器人、蜘蛛、脚本、抓取工具、爬虫等，以及误导、不请自来、非法和/或垃圾邮件发布/电子邮件。您同意不收集用户的个人和/或联系信息（“PI”）。

那么我应该假设我的机器人在整个站点中都被禁止，或者只是在 robots.txt 的 Disallowed 目录中被禁止？如果是前者，那么我对 robots.txt 文件有什么误解？如果是后者，那么我可以假设他们不会禁止我的 IP，因为我遵守 robots.txt 吗？

score 0 · Accepted Answer

他们以 rss 格式提供数据。右下角有一个 rss 链接，可将您带到 ?format=rss

例如：https ://losangeles.craigslist.org/search/sss?format=rss

我的猜测是，如果您要重新分发帖子内容、将电子邮件收集到垃圾邮件等，这种事情确实是不允许的。这可能取决于您如何使用数据。如果您只是收集统计信息，也许这是可以接受的，但我真的不知道。对于律师来说可能是一个更好的问题。

web-scraping - 解读 robots.txt 与使用条款

1 回答 1

Related

Reference