问题标签 [apriori]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3327 浏览

data-mining - 项集的适当最小支持?

请向我建议任何关于项目集的适当最低支持和信心的材料!

::我使用先验算法搜索频繁项集。我仍然不知道对 itemset 的适当支持和信心。我想知道决定支持有多大的考虑因素。

0 投票
1 回答
2865 浏览

r - 大数据从 arules 包转换为“事务”

R 中的 arules 包使用“事务”类。因此,为了使用该功能apriori(),我需要转换我现有的数据。我有一个 2 列和大约 1.6 毫米行的矩阵,并尝试像这样转换数据:

其中 original_data 是我的数据矩阵。由于数据量大,我使用了最大的 AWS Amazon 机器,64gb RAM。过了一会儿我得到

结果向量超出了“AnswerType”中的向量长度限制

机器的内存使用率仍然“仅”为 60%。这是基于 R 的限制吗?除了使用采样之外,还有什么方法可以解决这个问题?当仅使用 1/4 的数据时,转换工作正常。

编辑:正如所指出的,其中一个变量是一个因素而不是性格。更改后的转换得到了快速和正确的处理。

0 投票
3 回答
3246 浏览

database - Apriori 算法的数据集

我打算为 Market Basket Analysis 开发一个应用程序(使用 apriori 算法),我发现了一个包含 90,000 多条交易记录的数据集。

问题是这个数据集没有项目的名称,只包含项目的条形码。

我刚刚开始项目并研究先验算法,有人可以帮我解决这个案例,使用以下数据集实现该算法的最佳方法是什么?

0 投票
2 回答
93 浏览

algorithm - 导致查找表相关性

有这两张表:

什么是找到这两个表之间任意关系的好算法?在这个例子中,我希望它找到包含Op1 = C在 TableA 和Type = 3000TableB 中的记录之间的明显关系。

我可以以某种方式考虑先验,但似乎不太实用。你们说什么?

谢谢。

0 投票
1 回答
2787 浏览

hadoop - Hadoop 的 Apriori 和关联规则

使用 map-reduce 创建 Apriori 应用程序是否可行?我刚开始,但不清楚如何根据之前的运行创建下一个候选集。有人对这个有经验么?

0 投票
0 回答
3110 浏览

java - 从 Apriori 算法生成 Eclat 算法实现

我正在尝试将 Apriori 算法转换为 Eclat 算法。我的 Apriori 算法以水平格式执行垂直项中的事务并返回第 n 个频繁项集。

我需要的 Eclat 算法需要在垂直方向上设置项目,并且应该在水平方向上处理事务。和我的 Apriori 一样,它需要返回项集的交集。

项目集
0 1 1 0 1 1 1 0 0 1 1 1 1 1 1 交易
0 1 1 0 1 1 1 0 0 1 0 1 1 1 0
0 1 1 0 0 1 1 0 0 1 0 1 1 1 1
0 0 1 0 1 1 1 0 0 1 1 1 1 1 1
0 1 1 0 1 1 0 1 0 1 1 1 1 1 0
0 1 1 1 1 1 0 0 0 1 1 1 1 1 1
0 0 1 1 1 1 0 0 0 1 0 1 1 1 1
1 1 1 1 1 1 0 0 0 1 1 1 1 0 1
0 1 1 1 1 1 0 0 0 1 0 1 1 0 1
1 1 1 1 1 0 0 0 0 1 1 1 1 0 0
转置它不是问题,通过水平搜索找到频繁项集是。

}

0 投票
1 回答
7829 浏览

r - 如何从 R 中的先验调用中获取常见项集的频率?

问题:

arules包的apriori函数从输入事务中推断关联规则,并报告每个规则的支持度置信度提升度。关联规则来源于频繁项集。我想获得输入事务中最频繁的项集。具体来说,我想获得具有给定最小支持的所有项目集。项集的支持度是包含该项集的事务数与事务总数的比值。

要求:

  1. 我强烈希望从apriori函数的中间结果中找到最频繁的项集。也就是说,我不希望仅仅为了计算最频繁的项集而从头开始编写程序,因为apriori函数已经将其计算为中间步骤。尽管如此,如果真的没有一种合理的方式来访问apriori函数的中间结果,我愿意接受其他解决方案。
  2. 我宁愿不对apriori函数的结果进行字符串操作,因为这种方法将过于依赖apriori函数结果的字符串表示。同样,如果事实证明没有更好的选择,我可能会采用这种方法。
  3. 我知道arulesitemFrequency提供的功能。不幸的是,这个函数只报告带有单个项目的项目集。我对具有最低支持的任何长度的所有项目集感兴趣。
  4. 我希望输出按支持数字排序,然后按项目集按字典顺序排序。

示例输入:

程序:

电流输出:

期望的输出:

0 投票
2 回答
13742 浏览

dataset - Apriori算法的超市数据集

'我必须开发一个软件,它是为“未来商店”超市的业务分析师准备的,该软件对给定的超市销售交易的过渡数据进行关联规则挖掘,并通过准备 Combo 来准备折扣政策。该软件利用数据挖掘算法,即 Apriori 算法。关联规则将以用户友好的方式显示,以根据积极关联规则生成折扣政策。

从哪里可以获得超市数据集来检查我编码的 Apriori 算法?

0 投票
2 回答
5319 浏览

algorithm - FP-Growth 算法的时间和空间复杂度是多少?

我们如何计算数据挖掘中FP_growth算法的时间复杂度和空间复杂度?

0 投票
6 回答
77542 浏览

data-mining - 如何在 Apriori 算法中找到最小支持

当给出支持度和置信度的百分比值时,如何在 Apriori 算法中找到最小支持度。例如,当支持度和置信度分别为 60% 和 60% 时,最小支持度是多少?