对于一个学术项目,我必须分析一家保险公司的客户数据库。这家保险公司想确定几件事,首先对离开公司的客户进行分类,以便为他们提供一些优惠等。然后他们还想知道对哪些客户进行追加销售或交叉销售,如以及在保险索赔方面寻找有风险的客户。
所以我专注于客户取消,因为这似乎是最重要的。
保险公司提供的属性有:
捆绑/非捆绑、保单状态、保单类型、保单组合、签发日期、生效日期、到期日、保单期限、贷款期限、取消日期、取消原因、总保费、拆分器保费、合作伙伴 ID、代理 ID、国家代理、区域 ID、代理潜力、性承包商、出生年份承包商、工作承包商、性别被保险人、工作被保险人、出生年份被保险人、年份索赔、索赔状态、索赔条款、索赔付款
该数据库由约 20 万条记录组成,并且某些属性存在许多缺失值。我开始使用 Rapid Miner 来挖掘数据集。我稍微清理了数据集,删除了不连贯或错误的值。
然后我尝试应用决策树,添加一个从策略状态(可以发布、更新或取消)派生的新属性,称为 isCanceled,并将其用作决策树的标签。我尝试更改决策树的每个参数,但要么得到一棵只有 1 个叶节点且没有分裂的树,要么得到一些完全不相关的树,因为它的叶节点具有几乎相同数量的 2 个类实例。这真是令人沮丧。
我想知道进行流失分析的常用程序是什么,可能使用 Rapid Miner ..有人可以帮助我吗?