4

这几天我一直在为我的考试做一些工作,我正在浏览一些过去的论文,但不幸的是没有相应的答案。我已经回答了这个问题,我想知道是否有人可以告诉我我是否正确。

我的问题是

(c) 交易数据集 T 如下所示:

t1:牛奶、鸡肉、啤酒

t2:鸡肉、奶酪

t3:奶酪,靴子

t4:奶酪、鸡肉、啤酒、

t5:鸡肉、啤酒、衣服、奶酪、牛奶

t6:衣服、啤酒、牛奶

t7:啤酒、牛奶、衣服

假设最小支持为 0.5 (minsup = 0.5)。

(i) 找出所有频繁项集。

这是我的解决方法:

项目:金额

牛奶:4

鸡:4

啤酒:5

奶酪:4

靴子:1

衣服:3

现在因为 minsup 是 0.5,所以你去掉了靴子和衣服,并把剩下的给组合起来:

{项目}:金额

{牛奶,鸡肉}:2

{牛奶,啤酒}:4

{牛奶,奶酪}:1

{鸡肉,啤酒}:3

{鸡肉,奶酪}:3

{啤酒,奶酪}:2

哪一个让牛奶和啤酒成为唯一的频繁项目集,因为它是唯一高于 minsup 的项目?

4

3 回答 3

2

我同意你应该选择 Apriori 算法。

Apriori 算法基于这样一种思想,即对于频繁出现的一对 o 项目,每个单独的项目也应该是频繁的。如果汉堡包-番茄酱对很频繁,则汉堡包本身也必须经常出现在篮子中。番茄酱也是如此。

所以对于算法,它建立了一个“阈值X”来定义什么是频繁或不频繁。如果一个项目出现超过 X 次,则认为它是频繁出现的。

该算法的第一步是对每个篮子中的每个项目进行传递,并计算它们的频率(计算它出现的次数)。这可以通过大小为 N 的散列来完成,其中散列的位置 y 指的是 Y 的频率。

如果项目 y 的频率大于 X,则称它是频繁的。

在算法的第二步中,我们再次遍历项目,计算篮子中配对的频率。问题是我们只计算单独频繁的项目。因此,如果项目 y 和项目 z 本身是频繁的,那么我们计算这对的频率。这种情况大大减少了要计算的对和占用的内存量。

一旦计算出来,大于阈值的频率称为频繁项集。

( http://girlincomputerscience.blogspot.com.br/2013/01/frequent-itemset-problem-for-mapreduce.html )

于 2013-02-06T10:34:56.793 回答
1

有两种方法可以解决问题:

  1. 使用 Apriori 算法
  2. 使用 FP 计数

假设您使用的是 Apriori,那么您得到的答案是正确的。

算法很简单:
首先计算频繁的 1 项集并排除低于最小支持的项集。
然后通过组合先前迭代的频繁项来计算频繁的 2 项集,并排除低于支持阈值的项集。
该算法可以继续进行,直到没有项目集大于阈值。
在给您的问题中,您只会得到一组大于阈值的 2 个项目,因此您无法进一步移动。 这里
有一个关于 Wikipedia 进一步步骤的已解决示例。

有关更多示例,您可以参考 Han 和 Kamber 的“数据挖掘概念和技术”。

于 2013-01-05T09:52:56.607 回答
0

好的开始,您必须首先了解,数据挖掘(有时称为数据或知识发现)是从不同角度分析数据并将其总结为有用信息的过程 - 可用于增加收入、降低成本或两者兼而有之的信息。数据挖掘软件是用于分析数据的众多分析工具之一。它允许用户从许多不同的维度或角度分析数据,对其进行分类,并总结所识别的关系。从技术上讲,数据挖掘是在大型关系数据库中的数十个字段之间寻找相关性或模式的过程。

现在,存储在企业数据库中的原始数据量正在爆炸式增长。从数以万亿计的销售点交易和信用卡购买到逐个像素的星系图像,数据库现在以千兆字节和 TB 为单位进行衡量。(1 TB = 1 万亿字节。1 TB 相当于大约 200 万本书!)例如,沃尔玛每天将 2000 万笔销售点交易上传到 A&T 大规模并行系统,该系统有 483 个处理器,运行中央数据库. 然而,原始数据本身并不能提供太多信息。在当今竞争激烈的商业环境中,公司需要迅速将这些 TB 的原始数据转化为对其客户和市场的重要洞察,以指导他们的营销、投资和管理战略。

现在你必须明白,关联规则挖掘是数据挖掘中的一个重要模型。它的挖掘算法发现数据中满足用户指定的最小支持(minsup)和最小置信度(minconf)约束的所有项目关联(或规则)。Minsup 控制规则必须涵盖的最小数据案例数。Minconf 控制规则的预测强度。由于整个数据库只使用了一个 minsup,因此模型隐含地假设数据中的所有项目具有相同的性质和/或在数据中具有相似的频率。然而,在实际应用中很少出现这种情况。在许多应用程序中,一些项目在数据中出现的频率很高,而另一些则很少出现。如果 minsup 设置得太高,那些涉及稀有物品的规则将找不到。要查找涉及频繁项和稀有项的规则,必须将 minsup 设置得非常低。这可能会导致组合爆炸,因为这些频繁项将以所有可能的方式相互关联。这种困境被称为稀有物品问题。本文提出了一种新的技术来解决这个问题。该技术允许用户指定多个最小支持以反映项目的性质及其在数据库中的不同频率。在规则挖掘中,根据规则中的项目,不同的规则可能需要满足不同的最小支持度。本文提出了一种新的技术来解决这个问题。该技术允许用户指定多个最小支持以反映项目的性质及其在数据库中的不同频率。在规则挖掘中,根据规则中的项目,不同的规则可能需要满足不同的最小支持度。本文提出了一种新的技术来解决这个问题。该技术允许用户指定多个最小支持以反映项目的性质及其在数据库中的不同频率。在规则挖掘中,根据规则中的项目,不同的规则可能需要满足不同的最小支持度。

给定一组事务 T(数据库),挖掘关联规则的问题是发现所有支持度和置信度大于用户指定的最小支持度(称为 minsup)和最小置信度(称为 minconf)的关联规则。

我希望一旦你了解了数据挖掘的基础知识,这个问题的答案就会变得显而易见。

于 2013-01-04T21:38:46.483 回答