1

我正在寻找有关 dask 数据框结果的帮助。我有一个 dask 数据框,其中包含来自 144 个 csv 文件的 144 个数据框。我想从这些数据框的一列中获取最大值并返回它,以及它所属的文件夹的名称。我一直在使用 map_patitions 来获取我正在寻找的结果,但是,没有与分区结果关联的标识符,因此很难将结果应用于其他用途。任何帮助将不胜感激!这是我正在使用的代码示例:

ddf = dd.read_csv(f'{dir}/*/name.csv')['column 1'] # dir contains 144 folders, each with name.csv
def get_max (ddf):
    return  ddf.max(axis = 0) 
result = ddf.map_partitions(get_max).compute()
print(result)

结果包含我想要的值,索引为“第 1 列”。我想要文件夹的名称(本质上是 * 文件夹)作为索引。我的最终目标是一个数据框,其中包含文件夹或目录名称的索引以及从函数返回的最大值列。

4

1 回答 1

0

我相信您正在寻找include_path_column=该功能的关键字dask.dataframe.read_csv

您可以在此处查看此函数的文档:https ://docs.dask.org/en/latest/dataframe-api.html#dask.dataframe.read_csv

于 2020-03-28T00:28:33.310 回答