我有一个 csv 正在读入 Pandas DataFrame,但需要大约 35 分钟才能读完。csv 大约为 120 GB。我发现了一个名为cudf
允许 GPU DataFrame 的模块,但它仅适用于Linux
. 有类似的东西Windows
吗?
chunk_list = []
combined_array = pd.DataFrame()
for chunk in tqdm(pd.read_csv('\\large_array.csv', header = None,
low_memory = False, error_bad_lines = False, chunksize = 10000)):
print(' --- Complete')
chunk_list.append(chunk)
array = pd.concat(chunk_list)
print(array)