-1

对于一个学术项目,我必须分析一家保险公司的客户数据库。这家保险公司想确定几件事,首先对离开公司的客户进行分类,以便为他们提供一些优惠等。然后他们还想知道对哪些客户进行追加销售或交叉销售,如以及在保险索赔方面寻找有风险的客户。

所以我专注于客户取消,因为这似乎是最重要的。

保险公司提供的属性有:

捆绑/非捆绑、保单状态、保单类型、保单组合、签发日期、生效日期、到期日、保单期限、贷款期限、取消日期、取消原因、总保费、拆分器保费、合作伙伴 ID、代理 ID、国家代理、区域 ID、代理潜力、性承包商、出生年份承包商、工作承包商、性别被保险人、工作被保险人、出生年份被保险人、年份索赔、索赔状态、索赔条款、索赔付款

该数据库由约 20 万条记录组成,并且某些属性存在许多缺失值。我开始使用 Rapid Miner 来挖掘数据集。我稍微清理了数据集,删除了不连贯或错误的值。

然后我尝试应用决策树,添加一个从策略状态(可以发布、更新或取消)派生的新属性,称为 isCanceled,并将其用作决策树的标签。我尝试更改决策树的每个参数,但要么得到一棵只有 1 个叶节点且没有分裂的树,要么得到一些完全不相关的树,因为它的叶节点具有几乎相同数量的 2 个类实例。这真是令人沮丧。

我想知道进行流失分析的常用程序是什么,可能使用 Rapid Miner ..有人可以帮助我吗?

4

1 回答 1

1

根据我的经验,大多数数据挖掘或机器学习活动花费大部分时间清理、整理、格式化和理解数据。

假设这已经完成,那么只要部分或全部属性与要预测的标签之间存在关系,就可以执行某种流失分析。

当然,有很多方法可以确定这种关系,但一种快速的方法是尝试其中一个Weight By运算符。这将为每个属性输出一组权重,其中接近 1 的权重可能更能预测标签。

如果您确定存在价值属性,则可以使用决策树或其他运算符来构建可用于预测的模型。您拥有的属性是名义类型和数字类型的混合,因此决策树将起作用,并且无论如何此运算符更易于可视化。棘手的部分是正确设置参数,而做到这一点的方法是在参数变化时观察模型在看不见的数据上的性能。操作员可以提供Loop Parameters帮助。

于 2013-07-21T09:50:40.680 回答