好的开始,您必须首先了解,数据挖掘(有时称为数据或知识发现)是从不同角度分析数据并将其总结为有用信息的过程 - 可用于增加收入、降低成本或两者兼而有之的信息。数据挖掘软件是用于分析数据的众多分析工具之一。它允许用户从许多不同的维度或角度分析数据,对其进行分类,并总结所识别的关系。从技术上讲,数据挖掘是在大型关系数据库中的数十个字段之间寻找相关性或模式的过程。
现在,存储在企业数据库中的原始数据量正在爆炸式增长。从数以万亿计的销售点交易和信用卡购买到逐个像素的星系图像,数据库现在以千兆字节和 TB 为单位进行衡量。(1 TB = 1 万亿字节。1 TB 相当于大约 200 万本书!)例如,沃尔玛每天将 2000 万笔销售点交易上传到 A&T 大规模并行系统,该系统有 483 个处理器,运行中央数据库. 然而,原始数据本身并不能提供太多信息。在当今竞争激烈的商业环境中,公司需要迅速将这些 TB 的原始数据转化为对其客户和市场的重要洞察,以指导他们的营销、投资和管理战略。
现在你必须明白,关联规则挖掘是数据挖掘中的一个重要模型。它的挖掘算法发现数据中满足用户指定的最小支持(minsup)和最小置信度(minconf)约束的所有项目关联(或规则)。Minsup 控制规则必须涵盖的最小数据案例数。Minconf 控制规则的预测强度。由于整个数据库只使用了一个 minsup,因此模型隐含地假设数据中的所有项目具有相同的性质和/或在数据中具有相似的频率。然而,在实际应用中很少出现这种情况。在许多应用程序中,一些项目在数据中出现的频率很高,而另一些则很少出现。如果 minsup 设置得太高,那些涉及稀有物品的规则将找不到。要查找涉及频繁项和稀有项的规则,必须将 minsup 设置得非常低。这可能会导致组合爆炸,因为这些频繁项将以所有可能的方式相互关联。这种困境被称为稀有物品问题。本文提出了一种新的技术来解决这个问题。该技术允许用户指定多个最小支持以反映项目的性质及其在数据库中的不同频率。在规则挖掘中,根据规则中的项目,不同的规则可能需要满足不同的最小支持度。本文提出了一种新的技术来解决这个问题。该技术允许用户指定多个最小支持以反映项目的性质及其在数据库中的不同频率。在规则挖掘中,根据规则中的项目,不同的规则可能需要满足不同的最小支持度。本文提出了一种新的技术来解决这个问题。该技术允许用户指定多个最小支持以反映项目的性质及其在数据库中的不同频率。在规则挖掘中,根据规则中的项目,不同的规则可能需要满足不同的最小支持度。
给定一组事务 T(数据库),挖掘关联规则的问题是发现所有支持度和置信度大于用户指定的最小支持度(称为 minsup)和最小置信度(称为 minconf)的关联规则。
我希望一旦你了解了数据挖掘的基础知识,这个问题的答案就会变得显而易见。