我目前正在为我的大学运营一个特定的项目。我将在项目中做的是建立一个带有关联规则挖掘的交叉销售模型。
结果,我有很多规则,但我不确定如何对它们进行排名,哪个是最好的。
哪个选项会更好,如果
选项1:Confidence=20% Lift= 5
选项 2:Confidence = 50% Lift = 2
我知道信心很重要,但我听说Lift
也很重要。我应该牺牲一些信心来获得更多的提升还是保持平衡?
我目前正在为我的大学运营一个特定的项目。我将在项目中做的是建立一个带有关联规则挖掘的交叉销售模型。
结果,我有很多规则,但我不确定如何对它们进行排名,哪个是最好的。
哪个选项会更好,如果
选项1:Confidence=20% Lift= 5
选项 2:Confidence = 50% Lift = 2
我知道信心很重要,但我听说Lift
也很重要。我应该牺牲一些信心来获得更多的提升还是保持平衡?
这取决于关联规则挖掘的目标是:
例如:
- 100.000 transactions' database
- 2.000 tranasctions contain {(a, b)}
- 800 transactions contain {(a, b, c)}
项集的支持{(a, b, c)}: (800 / 100.000) * 100 = 0,8%
。
项集的支持度表示数据库的随机事务包含该项集项的频率。
关联规则的置信度{(a, b)} -> {(c)}: (800 / 2000) * 100 = 40%
。
关联规则的置信度表示包含关联规则结果的数据库的随机事务多久也包含关联规则的结果。
解除关联规则{(a, b)} -> {(c)}: 40 / ((5.000 / 100.000) * 100) = 8
。
提升是关联规则的置信度与预期置信度的比率。关联规则的置信度为 40%。在这种情况下的预期信心意味着,如果{(a, b)}
发生在交易中,这不会增加该{(c)}
交易中发生的可能性。
例如,如果{(c)}
发生在数据库的 5.000 个事务中,则预期置信度为(100.000 / 5.000) * 100 = 5%
.
关联规则的提升值高于则1
表明关联规则是有用的。提升值小于或等于1
表示关联规则无用。在这种情况下,就像关联规则的前件和后件是相互独立的。关联规则的指示的有用性,即如果交易持有({a, b})
它然后关联,({c})
则并不比({a, b})
偶然关联的更有用({c})
。
例如,如果数据库的所有 100.000 个事务都包含{(c)}
{(c)} 的预期值,则为(100.000 / 100.000) * 100 = 100%
. 电梯是40 / 100 = 0,4
。这是少了1
。因此关联规则{(a, b)} -> {(c)}
没有用。{(c)}
在每一笔交易中。如果有{(a, b)}
交易{(c)}
,则无论哪种方式。没有使用协会。
循环到此结束:这取决于关联规则挖掘的目标。如果目标是创建更强大的关联规则,则置信度需要非常高。如果目的是创建额外有用的关联规则,则电梯需要特别高。