我想用它Dask
来读取一个大型数据集并为其提供Keras
模型。数据由音频文件组成,我正在使用自定义函数来读取它们。我试图应用delayed
到这个函数,并将所有文件收集在一个 dask 数组中,如下所示:
x = da.stack([da.from_delayed(delayed(get_item_data)(fp, sr, mono, post_processing, data_shape), shape=data_shape, dtype=np.float32) for fp in df['path']])
(见源码)
为了训练 Keras 模型,我如上所述计算 X 和 Y,并将它们输入到函数fit
中。
但是,训练非常缓慢。我试图改变chunksize
它,它仍然很慢。
你能告诉我在创建数组时我是否做错了什么?或者有什么好的做法?
谢谢