Dask 有点新,但由于大多数操作都是懒惰的,我怎样才能使这样的基本案例大规模工作?
import dask.dataframe as dd
import dask.bag as db
dataset = [
dict(a = 1, b = 2, c = 3),
dict(a = 3, b = 4, d = 5, e = 5),
dict(a = 2, x = 1, y = 2, z = 3, q = 5)
# etc...
]
dag_data = db.from_sequence(dataset)
dag_data.to_dataframe()
在仅限 Pandas 的世界中,我可以映射pd.Series
,但问题是这些操作在计算完之后才会计算。上面的代码生成了一个只有第一条记录(“a”、“b”、“c”)的特征的 DataFrame。
预期结果:
| a | b | c | d | e | q | x | y | z |
---------------------------------------
| 1 | 2 | 3 | - | - | - | - | - | - |
| 3 | 4 | - | 5 | 5 | - | - | - | - |
| 2 | - | - | - | - | 5 | 1 | 2 | 3 |