4

我喜欢 dask 的简单性,很想用它来刮当地的超市。我的 multiprocessing.cpu_count() 是 4,但是这段代码只实现了 2 倍的加速。为什么?

from bs4 import BeautifulSoup
import dask, requests, time
import pandas as pd

base_url = 'https://www.lider.cl/supermercado/category/Despensa/?No={}&isNavRequest=Yes&Nrpp=40&page={}'

def scrape(id):
    page = id+1; start = 40*page
    bs = BeautifulSoup(requests.get(base_url.format(start,page)).text,'lxml')
    prods = [prod.text for prod in bs.find_all('span',attrs={'class':'product-description js-ellipsis'})]
    prods = [prod.text for prod in prods]
    brands = [b.text for b in bs.find_all('span',attrs={'class':'product-name'})]

    sdf = pd.DataFrame({'product': prods, 'brand': brands})
    return sdf

data = [dask.delayed(scrape)(id) for id in range(10)]
df = dask.delayed(pd.concat)(data)
df = df.compute()
4

2 回答 2

4

首先,2 倍加速 - 万岁!

您需要先阅读http://dask.pydata.org/en/latest/setup/single-machine.html

简而言之,以下三件事在这里可能很重要:

  • 你只有一个网络,所有数据都必须通过它,所以这可能是一个瓶颈
  • 默认情况下,您使用线程进行并行化,但 python GIL 限制并发执行(请参阅上面的链接)
  • concat操作发生在单个任务中,因此无法并行化,并且对于某些数据类型可能占总时间的很大一部分。您还使用.compute().
于 2018-05-15T16:38:36.610 回答
0

multiprocessing和之间存在有意义的差异multithreading有关差异的简要评论,请参见我的回答。在您的情况下,这只会导致 2 倍的加速,而不是 10 倍 - 50 倍的加速。

基本上,通过添加更多内核,您的问题并没有像通过添加线程那样扩展(因为它是 I/O 绑定......不是处理器绑定)。

将 Dask 配置为在multithreaded模式而不是multiprocessing模式下运行。我不确定如何执行此操作,dask此文档可能会有所帮助

于 2018-05-30T20:11:50.923 回答