0

我正在用scrapy爬行所有东西。我看到很多人都在使用漂亮的 Soup 进行解析。

我只是想知道在速度、效率或更多 slectrors 等方面是否有任何优势,可以帮助我创建蜘蛛和爬虫,或者单独使用 scrapy 对我来说就足够了

4

2 回答 2

2

使用 BeautifulSoup 而不是 Scrapy 内置的解析器选择器机制的性能取决于很多事情:例如,它允许使用不同的解析器;lxml 是其中最快的。还可以做一些其他的事情来提高 BeautifulSoup 的性能。总体而言,您可能会达到类似的性能,但总的来说,使用 BeautifulSoup 不会带来速度优势。

然而,BeautifulSoup 确实提供了一些 Scrapy 不提供的优势替代提取 API 和选择器机制。

尤其是CSS 选择器,您可能会觉得非常方便。

于 2012-11-26T09:58:30.350 回答
0

答案是您应该尝试使用HtmlSelector解析几个页面,然后使用漂亮的 Soup。并找到一些统计数据。

第二,大多数人使用漂亮的 Soup甚至lxml进行解析,因为他们已经习惯了使用它。

Scrapy 的基本动机是Crawling如果您对 Xpath 不满意,您可以使用漂亮的 Souplxml(尽管 lxml 包也支持 xpath)甚至Only Regex for Parsing

于 2012-11-26T07:28:06.560 回答