2

数据收集是我日常工作的一部分,通常我收集数据的方式是使用 urllib2 收集 html 页面,然后使用 beautifulsoup 解析出我想要的数据。

我经常听说 Python Scrapy 包。我看了一下 Scrapy,他们网站上的内容基本上是在谈论一般 Scraping 而不是“Scrapy”本身的重要性。

我想知道对于一个对 urllib2 和 beautifulsoup 有一定了解的人来说,Scrapy 是酷还是简单到足以让我放弃 urllib2 和 bs4 去追求?如果是这样,切换的主要原因是什么?

可能从以下几个方面:

  1. 实现机器人的速度

  2. 机器人的鲁棒性

  3. 易于维护您的机器人。

4

1 回答 1

5

这是我的见解。

Scrapy旨在使网络抓取代码更简单、更有条理。它也非常快(它基于扭曲)。

这些蜘蛛类、项目、项目管道确实可以帮助您组织获取页面、跟踪链接、解析响应、收集数据、将其存储在某处等的过程。它为您提供了一个关于如何创建网络抓取项目的想法和模板.

它不仅仅是urllib2+ bs4,它是一个框架:

Scrapy 是一个用于抓取网站和提取结构化数据的应用程序框架,可用于广泛的有用应用程序,如数据挖掘、信息处理或历史存档。

有比我提到的更多的功能,请参阅这个非常有用的概述文档页面,特别是阅读还有什么?部分。

选择(urllib2+bs4Scrapy)实际上取决于任务、网络抓取代码的复杂性、是否需要将抓取的数据存储在某处等。

希望有帮助。

于 2013-09-16T21:45:23.167 回答