问题标签 [apriori]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何为数据挖掘过程对数据进行分类?
我正在使用该apriori
功能进行数据挖掘过程。此功能仅适用于分类数据,没有值,只有文本。我的数据集满足这些要求,因为我有五个分类变量,没有数值,只有文本(因此变量“性别”分为“女性”和“男性”)
如果我现在尝试该apriori()
功能,我会收到以下错误:
错误asMethod(object)
:
尽管我的数据看起来是分类的,但 R 并不知道它是分类的。例如,如何使用 as.factor 函数对我的数据进行正确分类,以便 apriori 函数起作用?
r - 无法强制列表包含重复项目的事务 :: Win7 SP1 64 :: R v3.02
问题
我无法理解如何将列表转换为事务以通过先验算法进行进一步处理。我有一个有效的合成示例,而真实的(嗯,Foodmart 数据库的一个子集)不起作用;在系统级别上,它们对我来说看起来是一样的。请帮我将列表转换为交易对象。
系统设置
要复制的代码
有效的代码
不起作用的代码
有趣的事
任何想法为什么会发生这种神话般的(WTF)事情?
algorithm - Apriori 算法中的字典顺序
我正在使用 Apriori 算法一段时间,我在问我关于频繁项集候选生成的步骤。
如果我想将两个频繁的 3 项集连接到一个(候选)4 项集中,则连接项集中必须有 2 项相同而另一项不同。
例如我可以加入
至
但有时我在 Apriori 算法中读到了这一步:
我可以加入两个频率。来自 L_{k-1} 的项目,当有按字典顺序排列的前 k-2 个项目相同且最后一个项目不同时。
但是当我从上面的词典排序我的项目集时,第一个 k-2 项目不会相同,所以我可能不会加入它们?!?
我希望我能清楚地向你解释我的问题!
谢谢你的帮助!!
data-mining - GSP与General Apriori方法的区别
GSP 算法是一种基于 Apriori 的方法,具有一些增强功能。
在阅读了几篇描述之后,我仍然无法弄清楚 GSP 对通用 Apriori 算法带来的增强。是否考虑了项目集顺序?
你能给我举个例子,因为我是数据挖掘的新手。
先感谢您。
r - 将 r 中的数据框转换为事务或 itemMatrix?
我有一个data.frame
格式的数据,我想将其转换transactions
为itemMatrix
.
检查功能arules
支持这两种数据格式,这就是我问这个问题的原因
data-mining - 长度为 2 的项目集的模式挖掘
我正在寻找关联挖掘算法,我只能挖掘长度为 2 的频繁项集。在 2 项集停止时使用数据库查询来计算频繁项是否更好。
transactions - 计算事务中重复项的频繁项集
背景大多数关于频繁项集挖掘的例子都有具有唯一项的交易。例如{1,2}, {1,3}, {2,3,5,6}, {6}
. 我很想知道交易中的重复是否会影响结果。例如{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}
问题使用先验算法,事务数据库中对 1 项的支持是什么{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}
?我认为结果将是:
algorithm - 频繁项集挖掘的性能
我已经实现了用于挖掘频繁项集的 apriori 算法,它对样本数据的工作正常,但是当我尝试为http://fimi.ua.ac.be/data/retail.dat提供的零售数据集执行它时,它大约是 3mb 数据88k 笔交易和 1600 件独特物品大约需要 29 小时。我搜索了性能下降的原因,发现生成候选项目集的算法需要很多时间。任何人都可以帮助我如何提高性能,或者这些是正常的算法行为。
r - 如何在r中打印组合?
我有这样的数据代码包含数据
dat<-data.frame(A=c("V1","V2","V3","V4"), B=c("V1","V2","V3","V5"))
我想将每个组合并打印输出为
A的输出
V1=>V2V3V4
V2=>V1V3V4
V3=>V1V2V4
V1V2=>V3V4
V1V3=>V2V4
V3V4=>V1V2
V2V4=>V1V3
V2V3V4=>V1
V1V3V4=>V2
V1V2V4=>V3
类似的方式 B 组合我的代码是
此代码不起作用。我不能在单个中存储多个组合data.frame
。那就是问题所在
r - 聚类变量
有哪些经过验证的方法可以在 R 中轻松实现的大型高维二进制数据集(想想 200,000 多行和 150 多个字段)中查找高度相关变量的分组?我想找到适合解释的变量分组,所以我认为 PCA 不是最好的方法。