问题标签 [apriori]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
6615 浏览

r - 如何为数据挖掘过程对数据进行分类?

我正在使用该apriori功能进行数据挖掘过程。此功能仅适用于分类数据,没有值,只有文本。我的数据集满足这些要求,因为我有五个分类变量,没有数值,只有文本(因此变量“性别”分为“女性”和“男性”)

如果我现在尝试该apriori()功能,我会收到以下错误:

错误asMethod(object)

尽管我的数据看起来是分类的,但 R 并不知道它是分类的。例如,如何使用 as.factor 函数对我的数据进行正确分类,以便 apriori 函数起作用?

0 投票
1 回答
5875 浏览

r - 无法强制列表包含重复项目的事务 :: Win7 SP1 64 :: R v3.02

问题

我无法理解如何将列表转换为事务以通过先验算法进行进一步处理。我有一个有效的合成示例,而真实的(嗯,Foodmart 数据库的一个子集)不起作用;在系统级别上,它们对我来说看起来是一样的。请帮我将列表转换为交易对象。

系统设置

要复制的代码

有效的代码

不起作用的代码

有趣的事

任何想法为什么会发生这种神话般的(WTF)事情?

0 投票
1 回答
924 浏览

algorithm - Apriori 算法中的字典顺序

我正在使用 Apriori 算法一段时间,我在问我关于频繁项集候选生成的步骤。

如果我想将两个频繁的 3 项集连接到一个(候选)4 项集中,则连接项集中必须有 2 项相同而另一项不同。

例如我可以加入

但有时我在 Apriori 算法中读到了这一步:

我可以加入两个频率。来自 L_{k-1} 的项目,当有按字典顺序排列的前 k-2 个项目相同且最后一个项目不同时。

但是当我从上面的词典排序我的项目集时,第一个 k-2 项目不会相同,所以我可能不会加入它们?!?

我希望我能清楚地向你解释我的问题!

谢谢你的帮助!!

0 投票
3 回答
2305 浏览

data-mining - GSP与General Apriori方法的区别

GSP 算法是一种基于 Apriori 的方法,具有一些增强功能。

在阅读了几篇描述之后,我仍然无法弄清楚 GSP 对通用 Apriori 算法带来的增强。是否考虑了项目集顺序?

你能给我举个例子,因为我是数据挖掘的新手。

先感谢您。

0 投票
1 回答
10008 浏览

r - 将 r 中的数据框转换为事务或 itemMatrix?

我有一个data.frame格式的数据,我想将其转换transactionsitemMatrix.

检查功能arules支持这两种数据格式,这就是我问这个问题的原因

0 投票
2 回答
224 浏览

data-mining - 长度为 2 的项目集的模式挖掘

我正在寻找关联挖掘算法,我只能挖掘长度为 2 的频繁项集。在 2 项集停止时使用数据库查询来计算频繁项是否更好。

0 投票
3 回答
3874 浏览

transactions - 计算事务中重复项的频繁项集

背景大多数关于频繁项集挖掘的例子都有具有唯一项的交易。例如{1,2}, {1,3}, {2,3,5,6}, {6}. 我很想知道交易中的重复是否会影响结果。例如{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}

问题使用先验算法,事务数据库中对 1 项的支持是什么{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}?我认为结果将是:

0 投票
3 回答
1722 浏览

algorithm - 频繁项集挖掘的性能

我已经实现了用于挖掘频繁项集的 apriori 算法,它对样本数据的工作正常,但是当我尝试为http://fimi.ua.ac.be/data/retail.dat提供的零售数据集执行它时,它大约是 3mb 数据88k 笔交易和 1600 件独特物品大约需要 29 小时。我搜索了性能下降的原因,发现生成候选项目集的算法需要很多时间。任何人都可以帮助我如何提高性能,或者这些是正常的算法行为。

0 投票
1 回答
114 浏览

r - 如何在r中打印组合?

我有这样的数据代码包含数据

dat<-data.frame(A=c("V1","V2","V3","V4"), B=c("V1","V2","V3","V5"))

我想将每个组合并打印输出为

A的输出

V1=>V2V3V4

V2=>V1V3V4

V3=>V1V2V4

V1V2=>V3V4

V1V3=>V2V4

V3V4=>V1V2

V2V4=>V1V3

V2V3V4=>V1

V1V3V4=>V2

V1V2V4=>V3

类似的方式 B 组合我的代码是

此代码不起作用。我不能在单个中存储多个组合data.frame。那就是问题所在

0 投票
1 回答
2025 浏览

r - 聚类变量

有哪些经过验证的方法可以在 R 中轻松实现的大型高维二进制数据集(想想 200,000 多行和 150 多个字段)中查找高度相关变量的分组?我想找到适合解释的变量分组,所以我认为 PCA 不是最好的方法。