你好,stackoverflow-ers!希望你一切都好
我正在做一个项目,基本上是在尝试创建一个决策树。该数据是银行活动的数据,涉及该活动如何激励客户开设定期存款。
无论如何,我在在线资源的帮助下完成了编码等工作,并且在某一方面遇到了困难。
其中一列是所有客户的定期存款金额数字,当我绘制数据以将其可视化时(请参见附图)
由于数据如此分散,我想对其进行离散化。我使用了以下代码:
BankTraining$TDepositAMTD<-cut(BankTraining$TermDepositAMT, right=F,
breaks= c(0,5000,10000,15000,20000,max(BankTraining$TermDepositAMT)))
这里
Y 轴是观察次数,X 轴是定期存款的美元金额。
但是,在此步骤之后查看该列,我看到:
table(BankTraining$TDepositAMTD)
[0,5e+03) [5e+03,1e+04)
5213 8631
[1e+04,1.5e+04) [1.5e+04,2e+04)
8367 1698
[2e+04,3e+04)
3121
现在,显然这不好。一旦创建了决策树,它就会显示这些我无法解释的奇怪类别。
有人可以阐明这个问题吗?非常感谢您的帮助。