我的目标是根据几个客户属性(人口统计、过去的购买类别等)更好地预测公司客户群的购买习惯。我有一个包含大约 100,000 名回头客的数据集,包括他们上次购买的时间间隔(本研究中的因变量)以及几个属性(连续的和分类的)。
我计划对每个细分(定义为在观察中具有相似时间间隔的细分)进行生存分析,以帮助了解购买之间可能的时间间隔。我遇到的问题是如何最好地定义这些细分;即属性分组,使得段之间的时间间隔足够不同而段内的时间间隔相似。我相信构建决策树是最好的方法,我想使用递归分区。
我是 R 新手,并且已经使用了party
包的mob
命令,但是我对模型中要包含哪些变量以及要包含哪些进行分区(命令:mob(y ~ x1 + ... + xk | z1 + ... + zk)
,x
是模型变量和z
分区)感到困惑。我只是想从一组属性中构建一棵树,所以我想我想对所有属性进行分区?没有把握。我也尝试过该rpart
命令,但根据 cp 级别,要么没有树,要么得到具有数十万个节点的树。
如果有人有任何建议,我将不胜感激。对小说感到抱歉,感谢您的帮助。