1

我最近构建了一个简单的网络爬虫,我希望在网络上使用它。我的问题是我应该遵守哪些道德规则以及如何遵守它们。我听说了 robots.txt 文件,如何在 python 中打开它以及如何处理它?它们是我需要遵循的其他道德规则吗,例如每秒最大站点数等?然后提前。

4

1 回答 1

3

robots.txt是一个用于网络蜘蛛的简单文本文件,其中网站所有者列出了他们不想被网络蜘蛛索引的页面。但对于大多数人来说,您仍然可以通过将您的网络蜘蛛假装给用户来废弃这些信息,这些信息并不有趣。

您对页面的所有请求都将包含代理服务器的User_agent带有更多示例的俄语版本)元数据 - 你是谁 - 使用 Firefox 或网络蜘蛛的用户,如 Feedly fetcher(Feedly/1.0(+ http://www.feedly.com/fetcher .html ; 像 FeedFetcher-Google). 你也可以伪装成 IE 6.0 用户。

В达到道德和道德 - 不违反刑法。在地下室内容的每个站点都有一个“隐私”链接,在大多数情况下,该链接被要求参考源材料。

有一次我以每秒 15 页的速度爬取了一个新闻网站,作为 DDoS 攻击我被禁止了 10 分钟,但是当我将操作之间的间隔设置为 200 毫秒时。一切正常。但这取决于服务器配置。

于 2013-08-24T19:32:20.930 回答