0

我看到有人为机器学习模型的分类问题从名义变量创建虚拟变量。然后在决策树、SVM、NN 模型中使用原始名义变量和新创建的虚拟变量。

我不明白它的意义。我觉得使用名义变量及其派生的虚拟变量是多余的。

我是正确的还是有必要同时使用原始名义变量及其虚拟指标?

4

1 回答 1

0

取决于你训练什么样的模型。简单模型(例如线性模型)可能太“愚蠢”而无法“看到”派生特征与原始特征之间的关系。

在线性回归的情况下,引入一个新特征,即另一个特征的平方就足以“欺骗”模型;它只能“看到”线性关系,所以二次方看起来是独立的。

于 2013-11-08T07:05:12.177 回答