2

我正在尝试在我的训练数据上训练随机森林,这些数据具有“名称”、“城市”等预测变量。这两个预测变量有超过 32 个类别。我该怎么做才能包括他们?

甚至一些其他算法似乎也无法处理更大的类别,如 SVM 或 gbm。

4

1 回答 1

2

出于速度的原因,通常建议避免使用公式接口来随机森林。相反,使用model.matrix您的公式,并将结果提供给随机森林。然后,您可以拥有任意数量的类别,因为它们是二分法的(即虚拟化或变成二进制变量)。

正如@joran 指出的那样,您可能还想更多地考虑您的问题。

于 2013-06-10T15:51:18.353 回答