web-scraping - 使用网络爬虫的道德规范

Question

我最近构建了一个简单的网络爬虫，我希望在网络上使用它。我的问题是我应该遵守哪些道德规则以及如何遵守它们。我听说了 robots.txt 文件，如何在 python 中打开它以及如何处理它？它们是我需要遵循的其他道德规则吗，例如每秒最大站点数等？然后提前。

score 3 · Accepted Answer

robots.txt是一个用于网络蜘蛛的简单文本文件，其中网站所有者列出了他们不想被网络蜘蛛索引的页面。但对于大多数人来说，您仍然可以通过将您的网络蜘蛛假装给用户来废弃这些信息，这些信息并不有趣。

您对页面的所有请求都将包含代理服务器的User_agent（带有更多示例的俄语版本）元数据 - 你是谁 - 使用 Firefox 或网络蜘蛛的用户，如 Feedly fetcher（Feedly/1.0（+ http://www.feedly.com/fetcher .html ; 像 FeedFetcher-Google). 你也可以伪装成 IE 6.0 用户。

В达到道德和道德 - 不违反刑法。在地下室内容的每个站点都有一个“隐私”链接，在大多数情况下，该链接被要求参考源材料。

有一次我以每秒 15 页的速度爬取了一个新闻网站，作为 DDoS 攻击我被禁止了 10 分钟，但是当我将操作之间的间隔设置为 200 毫秒时。一切正常。但这取决于服务器配置。

web-scraping - 使用网络爬虫的道德规范

1 回答 1

Related

Reference