1

我有一个名为“dataframe”的数据框,其中包含特定日期的一堆销售信息。每个日期条目的格式为 YYYY-MM-DD,数据范围从 2012 年到 2017 年。我想将此数据框拆分为 6 个单独的数据框,每年一个。例如,第一个拆分数据帧将包含 2012 年的所有条目。

我想我可以在下面的代码中做到这一点。我每年将数据框拆分为一个,并将它们放在“年”列表中。但是,当我尝试在每个数据帧上运行 auto_arima 时,我收到错误“找到具有不一致样本数量的输入变量”。

我认为这是因为我没有正确拆分原始数据框。如何根据年份正确拆分数据框?

#Partition data into years
years = [g for n, g in dataframe.set_index('Date').groupby(pd.Grouper(freq='Y'))]

#Create a list that will hold all auto_arima results for every dataframe
stepwise_models = []

#Call auto_arima on every dataframe
for x in range(len(years)-1):
    currentDf = years[x]
    model = auto_arima(currentDf['price'], exogenous=xreg, start_p=1, start_q=1,
        max_p=3, max_q=3, m=12,
        start_P=0, seasonal=True,
        d=1, D=1, trace=True,
        error_action='ignore',  
        suppress_warnings=True, 
        stepwise=True)
    stepwise_models.append(model) #Store current auto_arima result in our stepwise_models[] list
4

2 回答 2

2

您可以使用日期时间访问器按年份过滤行并按年份创建新数据框

import datetime as dt
dataframe1=dataframe[dataframe['Date'].dt.year == 2012]
于 2018-06-28T01:55:49.897 回答
2

如果您想按所有可用年份拆分数据框,您可以通过在数据框中查找唯一年份来执行此操作,然后遍历这些唯一年份,然后使用布尔索引在每年的循环中过滤掉。

所以这个想法可以在如下函数中实现:

def split_years(dt):
    dt['year'] = dt['Date'].dt.year
    return [dt[dt['year'] == y] for y in dt['year'].unique()]

上面函数的结果将是一个数据框列表,每个数据框都有一个年份。

于 2020-06-10T09:00:40.443 回答