我需要生成一个包含超过 100 万条记录和 50 列的数据集。
我尝试了 2 种方法,但两次尝试都出现内存错误。我使用了 ipython、32 位和 python 2.7。
( sim.require 是 10,000 条记录和 50 列,我需要附加 100 条)
for counter in range (0,99):
if counter==0:
sim_all=sim_require.copy()
else:
sim_all=sim_all.append(sim_require)
我从上面得到内存错误,然后我将每次运行保存到 .h5 文件。所以,我有 100 个 .h5 数据集。每个包含 10,000 条记录,50 列。然后我试图阅读所有这些,但仍然是徒劳的。
os.chdir(outputs_mc)
for cnt in range(0,100):
if cnt==0:
sim_all= pd.DataFrame(pd.read_pickle(os.getcwd()+ '\\sim_all_'+ \
str(cnt) +'.h5'))
else:
inp= pd.DataFrame(pd.read_pickle(os.getcwd()+ '\\sim_all_'+ \
str(cnt) +'.h5'))
sim_all=sim_all.append(inp)
有人可以展示正确的做法吗?谢谢你。