python - 为什么我的 for 循环覆盖而不是追加？

Question

我有多个 (25k) .csv 文件，我试图将它们附加到 HDFStore 文件中。它们都共享相同的标题。我正在使用下面的代码，但由于某种原因，每当我运行它时，数据框并没有附加所有文件，而只是列表中的最后一个文件。

filenames = []  #list of .csv file paths that I've alredy populated
dtypes= {dict of datatypes}
store = pd.HDFStore('store.h5')
store.put('df', pd.read_csv(filenames[0],dtype=dtypes,parse_dates=
["date"])) #store one data frame

for f in filenames:
    try:
        temp_csv = pd.DataFrame()
        temp_csv = pd.read_csv(f,dtype=dtypes,parse_dates=["trade_date"]) 
        store.append('df', temp_csv)
    except:
    pass

我试过使用文件名列表的一个子集，但总是得到最后一个条目。出于某种原因，循环不是附加我的文件，而是每次都覆盖它。任何建议将不胜感激，因为这让我发疯。（蟒蛇3，窗口）

score 0 · Accepted Answer

我认为问题与以下有关：

store.append('df', temp_csv)

如果我正确理解你想要做什么，'df'应该改变每次迭代，你现在只是覆盖它。

score 0 · Accepted Answer

就像@SeaMonkey 说的那样，您每次迭代都在创建/存储一个新的 DataFrame。您的合并数据框应该在循环之外实例化，就像这样。

filenames = []  #list of .csv file paths that I've alredy populated
dtypes= {dict of datatypes}

df = pd.DataFrame()
for f in filenames:
    df_tmp = pd.read_csv(f,dtype=dtypes,parse_dates=["trade_date"]) 
    df = df.append(df_tmp)

store = pd.HDFStore('store.h5')
store.put('df', df)

python - 为什么我的 for 循环覆盖而不是追加？

2 回答 2

Related

Reference