2

我的目标是根据几个客户属性(人口统计、过去的购买类别等)更好地预测公司客户群的购买习惯。我有一个包含大约 100,000 名回头客的数据集,包括他们上次购买的时间间隔(本研究中的因变量)以及几个属性(连续的和分类的)。

我计划对每个细分(定义为在观察中具有相似时间间隔的细分)进行生存分析,以帮助了解购买之间可能的时间间隔。我遇到的问题是如何最好地定义这些细分;即属性分组,使得段之间的时间间隔足够不同而段内的时间间隔相似。我相信构建决策树是最好的方法,我想使用递归分区。

我是 R 新手,并且已经使用了party包的mob命令,但是我对模型中要包含哪些变量以及要包含哪些进行分区(命令:mob(y ~ x1 + ... + xk | z1 + ... + zk)x是模型变量和z分区)感到困惑。我只是想从一组属性中构建一棵树,所以我想我想对所有属性进行分区?没有把握。我也尝试过该rpart命令,但根据 cp 级别,要么没有树,要么得到具有数十万个节点的树。

如果有人有任何建议,我将不胜感激。对小说感到抱歉,感谢您的帮助。

4

1 回答 1

2

从文档中?mob

MOB 是一种基于模型的递归分区算法,可生成一棵树,该树具有与每个终端节点关联的拟合模型。

它要求模型变量,因为它会在分割变量后在每个终端节点(例如线性、逻辑)建立一个模型。如果您想在不将模型拟合到终端节点的情况下进行分区,我使用的功能是ctree(也在party包中)。

于 2012-08-23T23:52:33.887 回答