data-mining - 项集的适当最小支持？

Question

请向我建议任何关于项目集的适当最低支持和信心的材料！

::我使用先验算法搜索频繁项集。我仍然不知道对 itemset 的适当支持和信心。我想知道决定支持有多大的考虑因素。

score 3 · Accepted Answer

答案是适当的值取决于数据。

对于某些数据集，最佳值可能是 0.5。但对于其他一些数据集，它可能是 0.05。这取决于数据。

但是如果设置 minsup =0 和 minconf = 0，一些算法会在终止前耗尽内存，或者你可能会因为模式太多而耗尽磁盘空间。

根据我的经验，选择 minsup 和 minconf 的最佳方法是从高值开始，然后逐渐降低它们，直到找到足够的模式。

或者，如果您不想设置 minsup，您可以使用 top-k 算法，而不是指定 minsup，您可以指定例如您想要 k 个最频繁的规则。例如，k = 1000 条规则。

如果你对top-k关联规则挖掘感兴趣，可以在这里查看我的Java代码：

http://www.philippe-fournier-viger.com/spmf/

该算法被称为 TopKRules，描述它的文章将在下个月发表。

除此之外，你需要知道除了支持度和置信度之外，还有很多其他的兴趣度度量：lift、all-confidence、……要了解更多信息，你可以阅读这篇文章：“关于为关联规则选择兴趣度度量”和“关联规则的兴趣度度量调查”基本上，所有的度量都在某些情况下存在一些问题……没有一个度量是完美的。

希望这可以帮助！

score 0 · Accepted Answer

在包括 Apriori 在内的任何关联规则挖掘算法中，由用户决定他们想要提供哪些支持和置信度值。根据您的数据集和您的目标，您决定 minSup 和 minConf。显然，如果您将这些值设置得较低，那么您的算法将需要更长的时间来执行，并且您会得到很多结果。

score 0 · Accepted Answer

最小支持和最小置信度参数是用户偏好。If you want a larger quantity of results (with lower statistical confidence), choose the parameters appropriately. 理论上你可以将它们设置为 0。算法会运行，但需要很长时间，而且结果不会特别有用，因为它几乎包含任何东西。

所以选择它们，以便结果适合您的需求。从数学上讲，任何值都是“正确的”。

data-mining - 项集的适当最小支持？

3 回答 3

Related

Reference