python-requests - 使用 dask 通过请求进行抓取

Question

我喜欢 dask 的简单性，很想用它来刮当地的超市。我的 multiprocessing.cpu_count() 是 4，但是这段代码只实现了 2 倍的加速。为什么？

from bs4 import BeautifulSoup
import dask, requests, time
import pandas as pd

base_url = 'https://www.lider.cl/supermercado/category/Despensa/?No={}&isNavRequest=Yes&Nrpp=40&page={}'

def scrape(id):
    page = id+1; start = 40*page
    bs = BeautifulSoup(requests.get(base_url.format(start,page)).text,'lxml')
    prods = [prod.text for prod in bs.find_all('span',attrs={'class':'product-description js-ellipsis'})]
    prods = [prod.text for prod in prods]
    brands = [b.text for b in bs.find_all('span',attrs={'class':'product-name'})]

    sdf = pd.DataFrame({'product': prods, 'brand': brands})
    return sdf

data = [dask.delayed(scrape)(id) for id in range(10)]
df = dask.delayed(pd.concat)(data)
df = df.compute()

score 4 · Accepted Answer

首先，2 倍加速 - 万岁！

您需要先阅读http://dask.pydata.org/en/latest/setup/single-machine.html

简而言之，以下三件事在这里可能很重要：

你只有一个网络，所有数据都必须通过它，所以这可能是一个瓶颈
默认情况下，您使用线程进行并行化，但 python GIL 限制并发执行（请参阅上面的链接）
该concat操作发生在单个任务中，因此无法并行化，并且对于某些数据类型可能占总时间的很大一部分。您还使用.compute().

score 0 · Accepted Answer

multiprocessing和之间存在有意义的差异multithreading。有关差异的简要评论，请参见我的回答。在您的情况下，这只会导致 2 倍的加速，而不是 10 倍 - 50 倍的加速。

基本上，通过添加更多内核，您的问题并没有像通过添加线程那样扩展（因为它是 I/O 绑定......不是处理器绑定）。

将 Dask 配置为在multithreaded模式而不是multiprocessing模式下运行。我不确定如何执行此操作，dask但此文档可能会有所帮助

python-requests - 使用 dask 通过请求进行抓取

2 回答 2

Related

Reference