python - Beautiful Soup with Scrapy 可以提高性能吗

Question

我正在用scrapy爬行所有东西。我看到很多人都在使用漂亮的 Soup 进行解析。

我只是想知道在速度、效率或更多 slectrors 等方面是否有任何优势，可以帮助我创建蜘蛛和爬虫，或者单独使用 scrapy 对我来说就足够了

score 2 · Accepted Answer

使用 BeautifulSoup 而不是 Scrapy 内置的解析器选择器机制的性能取决于很多事情：例如，它允许使用不同的解析器；lxml 是其中最快的。还可以做一些其他的事情来提高 BeautifulSoup 的性能。总体而言，您可能会达到类似的性能，但总的来说，使用 BeautifulSoup 不会带来速度优势。

然而，BeautifulSoup 确实提供了一些 Scrapy 不提供的优势替代提取 API 和选择器机制。

尤其是CSS 选择器，您可能会觉得非常方便。

score 0 · Accepted Answer

答案是您应该尝试使用HtmlSelector解析几个页面，然后使用漂亮的 Soup。并找到一些统计数据。

第二，大多数人使用漂亮的 Soup甚至lxml进行解析，因为他们已经习惯了使用它。

Scrapy 的基本动机是Crawling如果您对 Xpath 不满意，您可以使用漂亮的 Soup、lxml（尽管 lxml 包也支持 xpath）甚至Only Regex for Parsing。

python - Beautiful Soup with Scrapy 可以提高性能吗

2 回答 2

Related

Reference