我正在尝试在大型数据框上拟合 lightgbm 模型多类模型:
train_data = lgb.Dataset(train_df[v1].values, label=label)
631,761 x 1786
列 (2.2gb)。这运行良好。但是,有一列有 10000 个唯一的类(我目前在模型的帮助下使用pd.factorize
)。但是我想转置它们并用作每个类的指标,如下所示:
train_data = lgbm.Dataset(train_df[v1].values, label=label,feature_name=v1,categorical_feature=['ward_id'])
这种转换导致内存错误。有没有任何有效的方法可以做到这一点,而不会遇到内存错误。
这是我的配置:
Core i7, 16 GB ram.