我将-delimited.dat 文件DataFrame
的目录导入熊猫。|
以下代码有效,但我最终用MemoryError:
.
import pandas as pd
import glob
temp = []
dataDir = 'C:/users/richard/research/data/edgar/masterfiles'
for dataFile in glob.glob(dataDir + '/master_*.dat'):
print dataFile
temp.append(pd.read_table(dataFile, delimiter='|', header=0))
masterAll = pd.concat(temp)
有没有更节省内存的方法?还是我应该全力以赴去数据库?(我最终会迁移到数据库,但我正在逐步迁移到熊猫。)谢谢!
FWIW,这是一个示例 .dat 文件的头:
cik|cname|ftype|date|fileloc
1000032|BINCH JAMES G|4|2011-03-08|edgar/data/1000032/0001181431-11-016512.txt
1000045|NICHOLAS FINANCIAL INC|10-Q|2011-02-11|edgar/data/1000045/0001193125-11-031933.txt
1000045|NICHOLAS FINANCIAL INC|8-K|2011-01-11|edgar/data/1000045/0001193125-11-005531.txt
1000045|NICHOLAS FINANCIAL INC|8-K|2011-01-27|edgar/data/1000045/0001193125-11-015631.txt
1000045|NICHOLAS FINANCIAL INC|SC 13G/A|2011-02-14|edgar/data/1000045/0000929638-11-00151.txt