我有一个包含 14 个特征的数据集,其中很少有如下所示,其中性别和婚姻状况是分类变量。
height,sex,maritalStatus,age,edu,homeType
SEX
1. Male
2. Female
MARITAL STATUS
1. Married
2. Living together, not married
3. Divorced or separated
4. Widowed
5. Single, never married
现在我正在使用 R 中的 rpart 库来构建分类树,使用以下内容
rfit = rpart(homeType ~., data = trainingData, method = "class", cp = 0.0001)
这给了我一个不考虑性别和婚姻状况的决策树。
我正在考虑为此使用 as.factor :
sex = as.factor(trainingData$sex)
ms = as.factor(trainingData$maritalStatus)
但我不确定如何将这些信息传递给 rpart。由于 rpart() 中的数据参数采用“trainingData”数据帧。它将始终采用此数据框中的值。我对 R 并不陌生,希望有人能在这方面提供帮助。