我正在挖掘一些数据。我想节省时间。那么有什么方法吗?
问问题
1404 次
2 回答
3
如果您正在挖掘数据并且想要节省时间,您应该考虑使用 FPGrowth 而不是尝试优化 Apriori。
即使优化了 Apriori,它也不会像 FPGrowth 的良好实现那样快。
Apriori 很重要,因为它是频繁项集挖掘和关联挖掘的第一个算法。但是现在有一些更有效的算法。
于 2013-03-31T16:03:50.433 回答
1
使用正确的编程语言(例如:使用 VB 可能是灾难性的)
制定您需要的信息并相应地对您的程序进行编码
减少数据库大小或根据需要准备数据库
超级计算机(是的,硬件确实很重要,开玩笑说你需要一台好的计算机,尤其是一个非常大的数据集)
通过以下方式改进 Apriori 算法本身:
•基于散列的项集计数:对应的散列桶计数低于阈值的k-项集不可能是频繁的。
•事务缩减:不包含任何频繁k-itemset 的事务在后续扫描中是无用的。
• 分区:在DB 中可能频繁出现的任何项集必须在DB 的至少一个分区中频繁出现。
•抽样:对给定数据的子集进行挖掘,较低的支持阈值+确定完整性的方法。
•动态项集计数:仅当估计其所有子集都是频繁的时才添加新的候选项集。
于 2010-12-03T18:13:54.790 回答