在将文件从 txt 或 HDF5 格式读取到 pandas 中的数据帧时,我遇到了一些问题,因为存储为 txt 并使用 read_table 读取的大约 200 mb 字符串的 txt 文件会导致大约 600 Mb 的内存消耗。如果我将数据帧附加到 HDFStore,则文件也约为 200 mb。这是我阅读文件的方式
datatypes=[('FIELD1','S13'),('FIELD2','S3'),('FIELD3','S31')]
df=pd.read_table('c:\\folder1\\example1.txt',sep='|',dtype=datatypes)
有没有办法在内存使用方面更有效地读取 txt 文件?
我正在使用熊猫 v 0.11.0
先感谢您