python - 数据收集 Urllib2+bs4 vs Scrapy

Question

数据收集是我日常工作的一部分，通常我收集数据的方式是使用 urllib2 收集 html 页面，然后使用 beautifulsoup 解析出我想要的数据。

我经常听说 Python Scrapy 包。我看了一下 Scrapy，他们网站上的内容基本上是在谈论一般 Scraping 而不是“Scrapy”本身的重要性。

我想知道对于一个对 urllib2 和 beautifulsoup 有一定了解的人来说，Scrapy 是酷还是简单到足以让我放弃 urllib2 和 bs4 去追求？如果是这样，切换的主要原因是什么？

可能从以下几个方面：

score 5 · Accepted Answer

这是我的见解。

Scrapy旨在使网络抓取代码更简单、更有条理。它也非常快（它基于扭曲）。

这些蜘蛛类、项目、项目管道确实可以帮助您组织获取页面、跟踪链接、解析响应、收集数据、将其存储在某处等的过程。它为您提供了一个关于如何创建网络抓取项目的想法和模板.

它不仅仅是urllib2+ bs4，它是一个框架：

Scrapy 是一个用于抓取网站和提取结构化数据的应用程序框架，可用于广泛的有用应用程序，如数据挖掘、信息处理或历史存档。

有比我提到的更多的功能，请参阅这个非常有用的概述文档页面，特别是阅读还有什么？部分。

选择（urllib2+bs4或Scrapy）实际上取决于任务、网络抓取代码的复杂性、是否需要将抓取的数据存储在某处等。

希望有帮助。

1 回答 1