0

我需要生成一个包含超过 100 万条记录和 50 列的数据集。

我尝试了 2 种方法,但两次尝试都出现内存错误。我使用了 ipython、32 位和 python 2.7。

( sim.require 是 10,000 条记录和 50 列,我需要附加 100 条)

for counter in range (0,99): 
    if counter==0:
      sim_all=sim_require.copy()
   else:
      sim_all=sim_all.append(sim_require)

我从上面得到内存错误,然后我将每次运行保存到 .h5 文件。所以,我有 100 个 .h5 数据集。每个包含 10,000 条记录,50 列。然后我试图阅读所有这些,但仍然是徒劳的。

os.chdir(outputs_mc)
for cnt in range(0,100):
    if cnt==0:
       sim_all= pd.DataFrame(pd.read_pickle(os.getcwd()+ '\\sim_all_'+ \
                str(cnt) +'.h5'))
    else:
        inp= pd.DataFrame(pd.read_pickle(os.getcwd()+ '\\sim_all_'+ \
                str(cnt) +'.h5'))
        sim_all=sim_all.append(inp)

有人可以展示正确的做法吗?谢谢你。

4

0 回答 0