问题标签 [apriori]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-mining - 项集的适当最小支持?
请向我建议任何关于项目集的适当最低支持和信心的材料!
::我使用先验算法搜索频繁项集。我仍然不知道对 itemset 的适当支持和信心。我想知道决定支持有多大的考虑因素。
r - 大数据从 arules 包转换为“事务”
R 中的 arules 包使用“事务”类。因此,为了使用该功能apriori()
,我需要转换我现有的数据。我有一个 2 列和大约 1.6 毫米行的矩阵,并尝试像这样转换数据:
其中 original_data 是我的数据矩阵。由于数据量大,我使用了最大的 AWS Amazon 机器,64gb RAM。过了一会儿我得到
结果向量超出了“AnswerType”中的向量长度限制
机器的内存使用率仍然“仅”为 60%。这是基于 R 的限制吗?除了使用采样之外,还有什么方法可以解决这个问题?当仅使用 1/4 的数据时,转换工作正常。
编辑:正如所指出的,其中一个变量是一个因素而不是性格。更改后的转换得到了快速和正确的处理。
database - Apriori 算法的数据集
我打算为 Market Basket Analysis 开发一个应用程序(使用 apriori 算法),我发现了一个包含 90,000 多条交易记录的数据集。
问题是这个数据集没有项目的名称,只包含项目的条形码。
我刚刚开始项目并研究先验算法,有人可以帮我解决这个案例,使用以下数据集实现该算法的最佳方法是什么?
algorithm - 导致查找表相关性
有这两张表:
和
什么是找到这两个表之间任意关系的好算法?在这个例子中,我希望它找到包含Op1 = C
在 TableA 和Type = 3000
TableB 中的记录之间的明显关系。
我可以以某种方式考虑先验,但似乎不太实用。你们说什么?
谢谢。
hadoop - Hadoop 的 Apriori 和关联规则
使用 map-reduce 创建 Apriori 应用程序是否可行?我刚开始,但不清楚如何根据之前的运行创建下一个候选集。有人对这个有经验么?
java - 从 Apriori 算法生成 Eclat 算法实现
我正在尝试将 Apriori 算法转换为 Eclat 算法。我的 Apriori 算法以水平格式执行垂直项中的事务并返回第 n 个频繁项集。
我需要的 Eclat 算法需要在垂直方向上设置项目,并且应该在水平方向上处理事务。和我的 Apriori 一样,它需要返回项集的交集。
项目集
0 1 1 0 1 1 1 0 0 1 1 1 1 1 1 交易
0 1 1 0 1 1 1 0 0 1 0 1 1 1 0
0 1 1 0 0 1 1 0 0 1 0 1 1 1 1
0 0 1 0 1 1 1 0 0 1 1 1 1 1 1
0 1 1 0 1 1 0 1 0 1 1 1 1 1 0
0 1 1 1 1 1 0 0 0 1 1 1 1 1 1
0 0 1 1 1 1 0 0 0 1 0 1 1 1 1
1 1 1 1 1 1 0 0 0 1 1 1 1 0 1
0 1 1 1 1 1 0 0 0 1 0 1 1 0 1
1 1 1 1 1 0 0 0 0 1 1 1 1 0 0
转置它不是问题,通过水平搜索找到频繁项集是。
}
r - 如何从 R 中的先验调用中获取常见项集的频率?
问题:
arules包的apriori函数从输入事务中推断关联规则,并报告每个规则的支持度、置信度和提升度。关联规则来源于频繁项集。我想获得输入事务中最频繁的项集。具体来说,我想获得具有给定最小支持的所有项目集。项集的支持度是包含该项集的事务数与事务总数的比值。
要求:
- 我强烈希望从apriori函数的中间结果中找到最频繁的项集。也就是说,我不希望仅仅为了计算最频繁的项集而从头开始编写程序,因为apriori函数已经将其计算为中间步骤。尽管如此,如果真的没有一种合理的方式来访问apriori函数的中间结果,我愿意接受其他解决方案。
- 我宁愿不对apriori函数的结果进行字符串操作,因为这种方法将过于依赖apriori函数结果的字符串表示。同样,如果事实证明没有更好的选择,我可能会采用这种方法。
- 我知道arules包
itemFrequency
提供的功能。不幸的是,这个函数只报告带有单个项目的项目集。我对具有最低支持的任何长度的所有项目集感兴趣。 - 我希望输出按支持数字排序,然后按项目集按字典顺序排序。
示例输入:
程序:
电流输出:
期望的输出:
dataset - Apriori算法的超市数据集
'我必须开发一个软件,它是为“未来商店”超市的业务分析师准备的,该软件对给定的超市销售交易的过渡数据进行关联规则挖掘,并通过准备 Combo 来准备折扣政策。该软件利用数据挖掘算法,即 Apriori 算法。关联规则将以用户友好的方式显示,以根据积极关联规则生成折扣政策。
从哪里可以获得超市数据集来检查我编码的 Apriori 算法?
algorithm - FP-Growth 算法的时间和空间复杂度是多少?
我们如何计算数据挖掘中FP_growth算法的时间复杂度和空间复杂度?
data-mining - 如何在 Apriori 算法中找到最小支持
当给出支持度和置信度的百分比值时,如何在 Apriori 算法中找到最小支持度。例如,当支持度和置信度分别为 60% 和 60% 时,最小支持度是多少?