pandas - 在 dask 数据帧中使用 map_partitions 获取目录名称

Question

我正在寻找有关 dask 数据框结果的帮助。我有一个 dask 数据框，其中包含来自 144 个 csv 文件的 144 个数据框。我想从这些数据框的一列中获取最大值并返回它，以及它所属的文件夹的名称。我一直在使用 map_patitions 来获取我正在寻找的结果，但是，没有与分区结果关联的标识符，因此很难将结果应用于其他用途。任何帮助将不胜感激！这是我正在使用的代码示例：

ddf = dd.read_csv(f'{dir}/*/name.csv')['column 1'] # dir contains 144 folders, each with name.csv
def get_max (ddf):
    return  ddf.max(axis = 0) 
result = ddf.map_partitions(get_max).compute()
print(result)

结果包含我想要的值，索引为“第 1 列”。我想要文件夹的名称（本质上是 * 文件夹）作为索引。我的最终目标是一个数据框，其中包含文件夹或目录名称的索引以及从函数返回的最大值列。

score 0 · Accepted Answer

我相信您正在寻找include_path_column=该功能的关键字dask.dataframe.read_csv。

您可以在此处查看此函数的文档：https ://docs.dask.org/en/latest/dataframe-api.html#dask.dataframe.read_csv

pandas - 在 dask 数据帧中使用 map_partitions 获取目录名称

1 回答 1

Related

Reference