machine-learning - 为什么基于树的模型不需要对标称数据进行 one-hot 编码？

Question

我们通常对标称数据进行 one-hot 编码，以便更合理地计算特征之间的距离或权重，但我经常听说随机森林或 boosting 模型等基于树的模型不需要进行 one-hot 编码，但我在网上搜索过，不知道，谁能告诉我为什么或指导我一些材料弄清楚吗？

score 1 · Accepted Answer

但我经常听说像随机森林或提升模型这样的基于树的模型不需要进行 one-hot 编码

这不一定是真的，因为某些实现会对数值和分类变量应用不同的逻辑，因此最好为您使用的库适当地编码分类变量。

但是，有时对决策树模型使用数字编码可能是可以的，因为它们只是在寻找分割数据的位置，而不是将输入乘以权重。red=1, blue=2将此与将解释为蓝色是红色两倍的神经网络进行对比，这显然不是您想要的。

1 回答 1