4

我有多个 (25k) .csv 文件,我试图将它们附加到 HDFStore 文件中。它们都共享相同的标题。我正在使用下面的代码,但由于某种原因,每当我运行它时,数据框并没有附加所有文件,而只是列表中的最后一个文件。

filenames = []  #list of .csv file paths that I've alredy populated
dtypes= {dict of datatypes}
store = pd.HDFStore('store.h5')
store.put('df', pd.read_csv(filenames[0],dtype=dtypes,parse_dates=
["date"])) #store one data frame

for f in filenames:
    try:
        temp_csv = pd.DataFrame()
        temp_csv = pd.read_csv(f,dtype=dtypes,parse_dates=["trade_date"]) 
        store.append('df', temp_csv)
    except:
    pass

我试过使用文件名列表的一个子集,但总是得到最后一个条目。出于某种原因,循环不是附加我的文件,而是每次都覆盖它。任何建议将不胜感激,因为这让我发疯。(蟒蛇3,窗口)

4

2 回答 2

0

我认为问题与以下有关:

store.append('df', temp_csv)

如果我正确理解你想要做什么,'df'应该改变每次迭代,你现在只是覆盖它。

于 2017-06-09T19:14:03.900 回答
0

就像@SeaMonkey 说的那样,您每次迭代都在创建/存储一个新的 DataFrame。您的合并数据框应该在循环之外实例化,就像这样。

filenames = []  #list of .csv file paths that I've alredy populated
dtypes= {dict of datatypes}

df = pd.DataFrame()
for f in filenames:
    df_tmp = pd.read_csv(f,dtype=dtypes,parse_dates=["trade_date"]) 
    df = df.append(df_tmp)

store = pd.HDFStore('store.h5')
store.put('df', df)
于 2017-06-10T00:06:36.043 回答