我在数据集中有几个高基数变量,并希望将它们转换为虚拟变量。他们都有500多个级别。当我使用 pandas get_dummies 时,矩阵变得如此之大,我的程序崩溃了。
pd.get_dummies(data, sparse=True, drop_first=True, dummy_na=True)
除了使用一种热编码之外,我不知道处理高基数变量的更好方法,但是它增加了数据的大小,以至于内存无法处理它。有没有人有更好的解决方案?
我在数据集中有几个高基数变量,并希望将它们转换为虚拟变量。他们都有500多个级别。当我使用 pandas get_dummies 时,矩阵变得如此之大,我的程序崩溃了。
pd.get_dummies(data, sparse=True, drop_first=True, dummy_na=True)
除了使用一种热编码之外,我不知道处理高基数变量的更好方法,但是它增加了数据的大小,以至于内存无法处理它。有没有人有更好的解决方案?