TL;DR:我如何将分布式读取中的元数据(解析期间的错误)收集到 dask 数据帧集合中。
我目前有一个专有文件格式,用于输入 dask.DataFrame。我有一个接受文件路径并返回 pandas.DataFrame 的函数,dask.DataFrame 在内部使用它成功地将多个文件加载到同一个 dask.DataFrame。
直到最近,我还在使用自己的代码将几个 pandas.DataFrames 合并为一个,现在我正在改用 dask。解析文件格式时,我可能会遇到错误和某些条件,我想记录并与 dask.DataFrame 对象关联为元数据(日志、数据来源等)。
重要的是要注意,在合理的情况下,我大量使用 MultiImdices(13 个索引级别,3 个列级别)。对于描述整个数据框而不是特定行的元数据,我使用的是属性。
使用自定义函数,我可以将元数据与实际 DataFrame 一起传递到元组中。使用 pandas,我可以将其添加到 _metadata 字段并作为 DataFrame 对象的属性。使用 dask 框架时,如何从单独的 pandas.DataFrame 对象收集元数据?
谢谢!