Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试在我的训练数据上训练随机森林,这些数据具有“名称”、“城市”等预测变量。这两个预测变量有超过 32 个类别。我该怎么做才能包括他们?
甚至一些其他算法似乎也无法处理更大的类别,如 SVM 或 gbm。
出于速度的原因,通常建议避免使用公式接口来随机森林。相反,使用model.matrix您的公式,并将结果提供给随机森林。然后,您可以拥有任意数量的类别,因为它们是二分法的(即虚拟化或变成二进制变量)。
model.matrix
正如@joran 指出的那样,您可能还想更多地考虑您的问题。