数据收集是我日常工作的一部分,通常我收集数据的方式是使用 urllib2 收集 html 页面,然后使用 beautifulsoup 解析出我想要的数据。
我经常听说 Python Scrapy 包。我看了一下 Scrapy,他们网站上的内容基本上是在谈论一般 Scraping 而不是“Scrapy”本身的重要性。
我想知道对于一个对 urllib2 和 beautifulsoup 有一定了解的人来说,Scrapy 是酷还是简单到足以让我放弃 urllib2 和 bs4 去追求?如果是这样,切换的主要原因是什么?
可能从以下几个方面:
实现机器人的速度
机器人的鲁棒性
易于维护您的机器人。