我最初尝试使用 pandas pd.read_csv 读取 4GB 的 csv 文件,但我的系统内存不足(我猜)并且内核正在重新启动或系统挂起。因此,我尝试使用 vaex 库将 csv 转换为 HDF5 并对其进行操作(聚合、分组)。为此,我使用过:
df = vaex.from_csv('Wager-Win_April-Jul.csv',column_names = None, convert=True, chunk_size=5000000)
and
df = vaex.from_csv('Wager-Win_April-Jul.csv',header = None, convert=True, chunk_size=5000000)
但是我仍然将 csv 文件中的第一条记录作为标题(准确地说是列名),并且我无法更改列名。我尝试找到更改名称的功能,但没有遇到任何问题。请帮助我。谢谢 :)
列名 1559104、10289、991... 实际上是 csv 中的第一条记录,并且 vaex 以某种方式将第一行作为我想要避免的列名