1

我必须在包含有关保险单的信息的数据库上执行数据挖掘任务。每个元组表示有关单个策略的数据,以及有关发布它的机构、它所指的客户和其他字段的信息。它就像假设表策略、客户和代理之间的产品。字段如下:

保单类型、身份证号码、保单状态、产品描述、产品组合、签发日期、生效日期、到期日期、保单期限、贷款期限、取消日期、取消原因、总保费、分路器保费、ID合作伙伴、ID代理、国家代理,ID 区,代理潜力,性承包商,出生年份承包商,工作承包商,性别被保险人,工作被保险人,出生年份被保险人,产品区域,法律形式,ID 声明,年份声明,状态声明,供应声明,付款声明

这是一项学术任务,我们的教授希望我们确定客户流失率、交叉销售和追加销售。我不太熟悉该领域,因此我在维基百科上查找了这些术语。我从流失率开始,在我看来,在这种情况下,我必须描述保单状态设置为“已取消”且取消原因为“客户取消”的客户的属性。

使用 Rapid Miner,我尝试应用决策树和规则挖掘,但感兴趣的子集非常小,以至于输出模型尽管总体上具有良好的准确性,但在预测取消策略方面的准确性非常非常差。发生这种情况是因为取消政策的子集非常小。我还尝试将 MetaCost 运算符与给定的成本矩阵一起应用,其中错误分类已取消策略的成本相对于其他策略高得离谱(比如高出一百万倍),但这根本没有改变结果。

我现在最好的选择是使用顺序覆盖算法进行规则挖掘,但是 Rapid Miner 没有实现它,我必须手动编码。

您对如何为一小部分已取消的保单建立一个好的模型有什么建议,以便我们可以使用它来识别将来可能取消保单的客户?

注意:由于它来自真实来源,尽管是匿名的,我不能透露数据库或其中包含的任何数据。

4

2 回答 2

1

你试过纳维贝叶斯吗?它适用于少量数据。您也可以尝试它的变体,例如 AODE。AODE 在 Rapid Miner 中不可用。您应该安装 Weka 扩展来访问 Rapid Miner 中的 AODE。

于 2013-06-04T07:27:11.250 回答
0

您需要平衡您的数据集,以便类(取消/未取消)的大小相同。这意味着(暂时)丢弃大量数据。

您可以使用带有 Balance Labels 复选框的 Sample 运算符来执行此操作。

于 2013-06-04T18:16:48.797 回答