0

让我们考虑数据集是一家银行(预测贷款),它包含以下属性。

> names(univ2)
[1] "age" "inc" "family" "edu" "mortgage" "ccavg" "cc" "cd"  "online" "securities" "infoReq" "loan"

我已经将几乎所有属性都转换为因子,其余的都使用离散函数进行转换,即年龄、公司、ccavg 和抵押。然后将这些变量转换为因子,以便将其传递给决策树算法

age <- discretize(univ2$age, disc="equalfreq", nbins=10) 
age=as.factor(age$X)

Inc、CCavg 和 Mortgage 也是如此。让我们考虑离散化范围为 5-12 的 bin 值,即每个属性共有 8 个 bin 值,可能的排列可能是 8P4 = 1680。我可以每次将 TRAIN、TEST、EVALUATION 数据传递给 DTrees 并获得具有准确性的预测以下方式。

dtC50 <- C5.0(loan ~ ., data = train, rules=TRUE)
a=table(train$loan, predict(dtC50, 
                        newdata=train, type="class"))
rcTrain=(a[2,2])/(a[2,1]+a[2,2])*100

同样对于 test, eval 来创建 rcTest 和 rcTrain 。让精度为

Recall in Training 91.26027 
Recall in Testing 94.11765 
Recall in Evaluation 93.37209

这里的问题是,有什么方法可以使用函数(或其他方式)对训练数据进行建模,并使用上述 8P4 的 bin 排列预测训练、测试、评估数据,并将输出存储在由 6 个属性组成的数据框中

1 ID                 : 1:1680
2 Bin Arrangement on (Age,Inc,CCavg,Mortgae) : (5,5,5,5)...........(10,11,12,5)
3 TrainAccuracy      : %'s
4 TestAccuracy       : %'s
5 EvaluationAccuracy : %'s
6 Is Test>Train      : 0 if does not satisfies, 1 if satisfies

如果我在安排和其他错误方面有错误,请纠正我。

有什么方法可以解决这个问题?

4

0 回答 0