Pandas 有很好的.read_table()
功能,但是大文件会导致 MemoryError。
由于我只需要加载满足特定条件的行,因此我正在寻找一种仅加载这些行的方法。
这可以使用临时文件来完成:
with open(hugeTdaFile) as huge:
with open(hugeTdaFile + ".partial.tmp", "w") as tmp:
tmp.write(huge.readline()) # the header line
for line in huge:
if SomeCondition(line):
tmp.write(line)
t = pandas.read_table(tmp.name)
有没有办法避免这样使用临时文件?