在 Dask 中,生成器何时转换为列表,或者它们通常是懒惰地消耗?例如,使用代码:
from collections import Counter
import numpy as np
import dask.bag as db
def foo(n):
for _ in range(n):
yield np.random.randint(10)
def add_to_count(acc, x):
acc.update(x)
return acc
def add(x,y):
return x + y
b1 = db.from_sequence([1,2,3,4,5])
b2 = b1.map(foo)
result = b2.fold(add_to_count, add, Counter())
我得到以下输出,其中生成器已(合理地)转换为列表供我检查:
>>> b2.compute()
[[5], [5, 6], [3, 6, 1], [5, 6, 6, 0], [5, 6, 6, 0, 3]]
虽然合理,但它不同于我通常期望生成器在 Python 中的行为方式,后者需要显式转换为列表。
那么,在计算fold
( ) 时,是生成器result.compute()
的输入参数
,还是已经将其转换为列表?x
add_to_count
我对列表很长的情况很感兴趣,因此惰性评估更有效,比如
b1 = db.from_sequence([10**6]*10)
.
我猜我也可以用 解决上述问题bag.frequencies
,但我对惰性评估和有效减少也有类似的担忧。
Dask 是否有一个基本方面我不是在摸索,或者我只是懒惰,我在哪里可以查看代码来自己解决这个问题?