0

你好,stackoverflow-ers!希望你一切都好

我正在做一个项目,基本上是在尝试创建一个决策树。该数据是银行活动的数据,涉及该活动如何激励客户开设定期存款。

无论如何,我在在线资源的帮助下完成了编码等工作,并且在某一方面遇到了困难。

其中一列是所有客户的定期存款金额数字,当我绘制数据以将其可视化时(请参见附图)在此处输入图像描述

由于数据如此分散,我想对其进行离散化。我使用了以下代码:

BankTraining$TDepositAMTD<-cut(BankTraining$TermDepositAMT, right=F,
                           breaks= c(0,5000,10000,15000,20000,max(BankTraining$TermDepositAMT)))

这里

Y 轴是观察次数,X 轴是定期存款的美元金额。

但是,在此步骤之后查看该列,我看到:

    table(BankTraining$TDepositAMTD)

   [0,5e+03)   [5e+03,1e+04) 
           5213            8631 
[1e+04,1.5e+04) [1.5e+04,2e+04) 
           8367            1698 
  [2e+04,3e+04) 
           3121

现在,显然这不好。一旦创建了决策树,它就会显示这些我无法解释的奇怪类别。

在此处输入图像描述

有人可以阐明这个问题吗?非常感谢您的帮助。

4

1 回答 1

0

由于您似乎对正在制作的剪辑不满意,请尝试一下:

library(Hmisc)
Groups <- cut2(data, g = 5) # g is the number of groups or levels I want

包 Hmisc 可以在这里找到。

至于您奇怪的类别,我们需要查看哪些包/算法以及您如何称呼它,因为这些类别可能是您的分箱产品和默认行为的某些结果。当有更多信息可用时,很高兴编辑。

于 2014-05-02T23:33:21.267 回答