问题标签 [apriori]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
480 浏览

data-mining - A-close 数据挖掘实现

我需要在数据集上比较 Apriori 和 A-close 算法,所以我需要这两种算法的实现。我可以找到 Apriori 算法的实现,但我找不到 A-close 算法的实现。当我找到 A-close 算法的实现时,它为我节省了很多时间。有人有这个算法的实现并想分享它或找到这个实现的一些技巧吗?

0 投票
1 回答
1624 浏览

java - 如何在java中从支持中计算置信度

现在我正在开发一个程序,该程序获取对电影评分的用户列表并计算对所有电影的支持。我给我的程序一个我想计算的电影的最大数量、一个支持最小值和一个置信度最小值。

目前,我的程序计算对所有单部电影的支持,并将满足最低支持的电影打印到具有支持值的文件中。

然后,它从满足最低支持的单个电影继续,计算也满足最低支持的电影对,并将这些统计数据打印到新文件中。

这种情况一直持续到不再有满足最小支持或达到最大电影数量的电影对/集。

电影的最大数量是一个简单的整数。例如,如果我将其设置为 3,它将仅计算对单个电影、2 个电影对和 3 个电影集的支持,并将所有单曲、对和集及其各自的支持打印回每个文件。

我的一个输出文件的示例如下所示...

这是三部电影的集合,空格分隔后跟一个“,”,然后是支持值。单个电影和电影对文件看起来完全相同,但在逗号前只有 1(或 2)个电影 ID。

注意:我有一个电影 ID(编号)到电影名称的映射,以便稍后打印。

我的问题......根据我所拥有的,有没有办法让我计算所有可能规则的置信度并打印/保存满足最低置信度百分比的规则?

0 投票
3 回答
1840 浏览

php - 伪先验算法

我有一个带有 ID 属性的对象数组,我需要将它们链接到一个表中。

我想将链接在一起的对象 ID 插入到 2 列 MySQL 表中。

有问题的表有 2 列:AB。我想将对象集合链接在一起而没有任何重叠。

我将其称为伪先验,因为它类似于先验算法的候选生成过程。

对于下面的示例,我有五个 ID 值为 1-5 的对象。例如:$obj1->id == 1,等等。

示例表:

0 投票
1 回答
288 浏览

haskell - Haskell:为先验生成 k 项集

我正在尝试生成所有用于先验的 k 项集,我正在遵循以下伪代码:

,这是我的代码:

但是当我编译时,我得到了错误:

但是当我从ghci

这是正确的,因为在交易集中满足发生阈值的是那些 2 项集。但我需要的 3 件套是

并将其附加到 2 项集列表中。我将如何更改我当前的代码来实现这一点?我知道它可以从 2 件套装中构建,但我不知道如何去做。

0 投票
3 回答
10125 浏览

pattern-matching - Difference between Closed and open Sequential Pattern Mining Algorithms

I want to use some algorithms to mine my log data.

I found a pattern mining framework on: http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php

I have tried several algorithms, the BIDE+ algorithm performs the best.

The BIDE+ algorithm is for mining frequent closed sequential patterns from a sequence database.

Can someone explain the definition about "closed" sequential patterns and open ones?

0 投票
1 回答
794 浏览

r - 我们如何知道规则中生成的项目的列名/属性

使用 arules 包,'apriori' 返回一个 'rules' 对象。

我们如何进行查询 - 规则 {lhs, rhs} 中的项目来自哪个确切列?

示例:

我在文件“input.csv”中有一些表格形式的数据,并希望将返回的规则项集与文件中的列标题关联/解释。我怎么可能做到这一点?

任何指针表示赞赏。谢谢,



一个可重现的例子:
input.csv

致电 Apriori:

返回结果:

现在,我想对规则 13 的项目进行区分

13 {0} => {1} 0.6153846 0.6666667 1.083333

{0} => {1}意味着,0in 维度"GHI"的值意味着 in 的值,1反之亦然"JKL"

那么,有没有一种方法可以获取规则对象中返回的项集值的列名/ID?

0 投票
1 回答
943 浏览

python - Python - 清理数据以运行先验算法

我有一组文章中使用的所有单词的主列表,现在我正在尝试计算每篇文章中主列表中每个单词的出现次数。然后我将尝试在数据上建立一些关联规则。例如,我的数据可能如下所示:

我需要将我的数据转换成这种格式:

我正在努力进行这种转换,我一直在玩 nltk,但我不知道如何计算其中包含不存在的单词的计数。任何帮助将不胜感激!

0 投票
3 回答
2421 浏览

data-mining - Weka Apriori 算法

我想使用 Apriori 对交易数据进行亲和力分析。我有一张包含订单列表及其信息的表格。我主要需要使用 OrderID 和 ProductID 属性,格式如下

OrderID 产品ID
1 A
1 B
1 C
2 A
2 C
3 A

Weka 要求您为每个产品 ID 创建一个名义属性,并使用如下所示的 true 或 false 值指定该项目是否存在于订单中:

1,真,真,真
2,真,假,真
3,真,假,假

我的数据集包含大约 10k 条记录……大约 3k 种不同的产品。谁能建议一种以这种格式创建数据集的方法?(除了手动耗时的方式......)

0 投票
3 回答
16996 浏览

r - 编写 Apriori 生成的规则

我正在处理一些大型交易数据。我一直在使用 read.transactions 和 apriori(arules 包的一部分)来挖掘频繁的项目配对。

我的问题是:生成规则时(使用“inspect()”),我可以在 R 控制台中轻松查看它们。现在我手动将结果复制到一个文本文件中,然后在 excel 中保存和打开。我只想使用 write.csv 或类似的东西保存生成的规则,但是当我尝试时,我收到一个错误,即无法将数据强制转换为 data.frame。

有没有人有在 R 中成功做到这一点的经验?

0 投票
1 回答
362 浏览

r - 在多个数据集上循环 read.transactions

我有大量要单独运行的文件read.transactions()(ARULES 包的一部分)。

我想做这样的事情:

到目前为止,我一直在复制代码。显然,在循环中执行此操作对我来说似乎更快。源数据已经被格式化、排序并在同一个地方,所以我不担心涉及多个目录的问题。

我是 R 新手,所以我不完全确定如何构建它。如果还有另一个类似的问题(仅关于循环)可以完成这项工作,那么我很乐意指出正确的方向。

谢谢。