0

我正在尝试在大型数据框上拟合 lightgbm 模型多类模型:

train_data = lgb.Dataset(train_df[v1].values, label=label)

631,761 x 1786列 (2.2gb)。这运行良好。但是,有一列有 10000 个唯一的类(我目前在模型的帮助下使用pd.factorize)。但是我想转置它们并用作每个类的指标,如下所示:

train_data = lgbm.Dataset(train_df[v1].values, label=label,feature_name=v1,categorical_feature=['ward_id'])

这种转换导致内存错误。有没有任何有效的方法可以做到这一点,而不会遇到内存错误。

这是我的配置:

Core i7, 16 GB ram.
4

0 回答 0