请向我建议任何关于项目集的适当最低支持和信心的材料!
::我使用先验算法搜索频繁项集。我仍然不知道对 itemset 的适当支持和信心。我想知道决定支持有多大的考虑因素。
请向我建议任何关于项目集的适当最低支持和信心的材料!
::我使用先验算法搜索频繁项集。我仍然不知道对 itemset 的适当支持和信心。我想知道决定支持有多大的考虑因素。
答案是适当的值取决于数据。
对于某些数据集,最佳值可能是 0.5。但对于其他一些数据集,它可能是 0.05。这取决于数据。
但是如果设置 minsup =0 和 minconf = 0,一些算法会在终止前耗尽内存,或者你可能会因为模式太多而耗尽磁盘空间。
根据我的经验,选择 minsup 和 minconf 的最佳方法是从高值开始,然后逐渐降低它们,直到找到足够的模式。
或者,如果您不想设置 minsup,您可以使用 top-k 算法,而不是指定 minsup,您可以指定例如您想要 k 个最频繁的规则。例如,k = 1000 条规则。
如果你对top-k关联规则挖掘感兴趣,可以在这里查看我的Java代码:
http://www.philippe-fournier-viger.com/spmf/
该算法被称为 TopKRules,描述它的文章将在下个月发表。
除此之外,你需要知道除了支持度和置信度之外,还有很多其他的兴趣度度量:lift、all-confidence、……要了解更多信息,你可以阅读这篇文章:“关于为关联规则选择兴趣度度量”和“关联规则的兴趣度度量调查”基本上,所有的度量都在某些情况下存在一些问题……没有一个度量是完美的。
希望这可以帮助!
在包括 Apriori 在内的任何关联规则挖掘算法中,由用户决定他们想要提供哪些支持和置信度值。根据您的数据集和您的目标,您决定 minSup 和 minConf。显然,如果您将这些值设置得较低,那么您的算法将需要更长的时间来执行,并且您会得到很多结果。
最小支持和最小置信度参数是用户偏好。If you want a larger quantity of results (with lower statistical confidence), choose the parameters appropriately. 理论上你可以将它们设置为 0。算法会运行,但需要很长时间,而且结果不会特别有用,因为它几乎包含任何东西。
所以选择它们,以便结果适合您的需求。从数学上讲,任何值都是“正确的”。