我有申请号、贷款金额的时间序列数据。如何使用功能工具包按申请数量和平均贷款金额分组,而不将月年关系添加回主要实体?
我已经使用 pandas 完成了这项工作,但我正在尝试探索 featuretools 包,并想知道它是否具有按类似功能分组的功能。
下面是熊猫版本的例子:我想使用功能工具来复制它。
#Creating a copy of the existing data frame
new_df=df[:]
#Creating values
new_df['year'] = new_df['DATE'].dt.year
new_df['month'] = new_df['DATE'].dt.month
#Sorting Values
new_df=new_df.drop_duplicates().sort_values(by=['var_1','var2','year','month'])
#Counting Distinct variable across 4 variables then taking cummulative sum across 2 variables and storing it in a new data frame
new_df_count_cummulative=new_df.groupby(['var_1','var_2','year','month']).var_3.nunique().groupby(['var_1','var_2']).cumsum()