我正在使用 Python 3 和 pandas(pd.read_csv) 来读取文件。没有标题,分隔符是 ' |, | '。此外,这些文件不是 .csv 文件,操作系统是 CentOS。
一个文件夹中有 30,000 个文件,总大小为 10GB。每个文件大约有 50-100 行和 1500 列。我读取每个 csv 文件(使用 read_csv)对其进行一些操作,并通过 for 循环将它们存储在列表中。在该过程结束时,我有一个数据框列表。我想知道如何加快这个过程。只有 10 列是相关的,因此我使用参数 usecols 进行过滤。单元格输入是字符串,所以我使用 df.astype(float) 将它们转换为浮点数。
请注意,我必须分别对每个文件进行操作,然后才能将它们全部附加在一起。
我尝试使用 modin,但它导致速度多次下降。此外,使用 modin 会导致每个数据帧中的索引重复多次,这在普通 pandas 中不会发生。