2

我正在努力挖掘数据集的关联规则,该数据集有很多二进制属性,但也有很多分类属性。将分类转换为二进制在理论上是可能的,但不切实际。我正在寻找一种技术来克服这个问题。

汽车规格数据示例,要执行关联规则挖掘,汽车颜色属性应该是二进制的,而在颜色的情况下,我们有很多颜色要转换为二进制(我的数据集是保险索赔及其比这个例子差得多)。

4

1 回答 1

2

关联规则挖掘不使用“属性”。它处理市场篮子类型的数据。将其预处理为二进制属性是没有意义的。因为您需要再次将二进制属性转换为项目(在最坏的情况下,如果您也在寻找“color_red=0, color_black=0, ... color_blue=1”)负面规则。

不幸的是,不同的算法 - 以及理论上相同算法的不同实现 - 将非常不同地扩展。

APRIORI 旨在很好地适应事务数量,但不能很好地适应具有最低支持的不同项目的数量;特别是如果您期望短项集仅是频繁的。其他算法,如 Eclat 和 FP-Growth 可能会更好。但是YMMV。

首先,尝试将数据集转换为购物篮格式,以一种认为每个项目都相关的方式。丢弃一切。然后从较高的最低支持开始,直到您开始获得结果。以太低的最低支持运行可能只是内存不足,或者可能需要很长时间。

此外,请确保获得良好的实施。很多声称是 APRIORI 的东西只是其中的一半,而且速度非常慢。

于 2015-01-13T11:41:15.307 回答