r - R-疯狂值中的数据离散化

Question

你好，stackoverflow-ers！希望你一切都好

我正在做一个项目，基本上是在尝试创建一个决策树。该数据是银行活动的数据，涉及该活动如何激励客户开设定期存款。

无论如何，我在在线资源的帮助下完成了编码等工作，并且在某一方面遇到了困难。

其中一列是所有客户的定期存款金额数字，当我绘制数据以将其可视化时（请参见附图）在此处输入图像描述

由于数据如此分散，我想对其进行离散化。我使用了以下代码：

BankTraining$TDepositAMTD<-cut(BankTraining$TermDepositAMT, right=F,
                           breaks= c(0,5000,10000,15000,20000,max(BankTraining$TermDepositAMT)))

这里

Y 轴是观察次数，X 轴是定期存款的美元金额。

但是，在此步骤之后查看该列，我看到：

    table(BankTraining$TDepositAMTD)

   [0,5e+03)   [5e+03,1e+04) 
           5213            8631 
[1e+04,1.5e+04) [1.5e+04,2e+04) 
           8367            1698 
  [2e+04,3e+04) 
           3121

现在，显然这不好。一旦创建了决策树，它就会显示这些我无法解释的奇怪类别。

在此处输入图像描述

有人可以阐明这个问题吗？非常感谢您的帮助。

score 0 · Accepted Answer

由于您似乎对正在制作的剪辑不满意，请尝试一下：

library(Hmisc)
Groups <- cut2(data, g = 5) # g is the number of groups or levels I want

包 Hmisc 可以在这里找到。

至于您奇怪的类别，我们需要查看哪些包/算法以及您如何称呼它，因为这些类别可能是您的分箱产品和默认行为的某些结果。当有更多信息可用时，很高兴编辑。

r - R-疯狂值中的数据离散化

1 回答 1

Related

Reference