我正在尝试学习使用 RapidMiner,我的老板希望我对一组数据进行购物篮分析。但是当我使用给定的模板时,我收到以下错误:
常规属性必须是二项式。
这是通过 FP-Growth 算子给出的。
我有一个 customerID(只有数字)、一个 productName(字母)和一个 Product Quantity(数字)列。
由于我是 RM 的新手,我不知道出了什么问题。
任何投入将不胜感激。
先感谢您。
我正在尝试学习使用 RapidMiner,我的老板希望我对一组数据进行购物篮分析。但是当我使用给定的模板时,我收到以下错误:
常规属性必须是二项式。
这是通过 FP-Growth 算子给出的。
我有一个 customerID(只有数字)、一个 productName(字母)和一个 Product Quantity(数字)列。
由于我是 RM 的新手,我不知道出了什么问题。
任何投入将不胜感激。
先感谢您。
FP-Growth 需要一个 ExampleSet 作为输入,其中所有常规属性都是二项式的,在这种情况下意味着布尔值。有时二项式属性具有预定义的正/真和负/假值,否则可以将正值指定为 FP-Growth 运算符中的参数。此外,每个示例都代表一个交易(或您的客户的购物篮),每个属性代表您完整产品线中的一个项目,该属性的值定义该项目是否在购物篮中。
要找到关联规则,首先需要找到频繁项集。这是 FP-Growth 算子的工作。您的工作是将 ExampleSet 转换为“事务数据库”,即所有属性都是二项式的。
不幸的是,RapidMiner 中的模板有点问题。要修复该过程,您必须在 FP-Growth 运算符之前添加两个运算符。首先,您需要用值 0 替换所有缺失值(运算符“替换缺失值”和参数“默认”为零)。替换后,您需要“数值到二项式”运算符。默认参数值足以将所有属性转换为二项式属性。该过程现在应该运行!请注意,您需要足够小的最小支持来查找频繁项集。
您可能需要将数据转换(折叠)成一种格式,每个客户一行(实际上是交易)和每个产品的一个数量列(可能是二进制) 。使用稀疏向量来保存存储所有的0
s。