问题标签 [apriori]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 从数组列表中提取信息
我有一个声明的ArrayList a = [1,2,3]
. 我ArrayLList b
使用下面的循环创建了另一个:
现在ArrayList
b
将包含元素[{1,2},{1,3},{2,3}]
。现在,如果我使用 打印语句System.out.println(b.get(0))
,那么输出将是{1,2}
。
现在我想进一步探索数组,以便我可以单独提取1
和提取2
。我怎样才能做到这一点?
java - 从 1 元素集创建 k 元素集
我在java中声明了一个ArrayList a = [1,2,3,4,5]。我使用下面的循环创建了另一个 ArrayList b:
现在 ArrayList b 将包含元素 [{1,2},{1,3},{1,4},{1,5},{2,3},{2,4},{2,5}, {3,4},{3,5},{4,5}]。现在,如果我使用 System.out.println(b.get(0)) 打印语句,则输出将为 {1,2}。
现在,我想从 2 元素集 c = [{1,2,3},{1,2,4},{1,2,5},{2,3,4} 创建 3 元素集,{2,3,5},{3,4,5}]。
同样,我想从上面的 3 元素集创建 4 元素集 d = [{1,2,3,4}, {1,2,3,5},{1,2,4,5} ,{2,3,4,5}]
再次,我想创建 5 元素集 lilkewise ......我该如何修改上述循环系统来实现它?
java - 从 2 项集创建 k 项集
我编写了以下代码来从 2 元素集生成 k 元素项集。这两个元素集作为 clist1 和 clist2 传递给 CandidateItemsetGen。
创建 k 项集的条件是 clist1(i) == clist2(i),其中 i = 1,...,k-2 和 clist1(k-2) != clist2(k-2)。但是我放**的代码中有错误。我怎样才能解决这个问题?逻辑是该函数生成候选项目集,这些候选项目集将再次用作生成其他候选项目集的输入。
r - 如何在R中获得超集?
输出:
使用 apriori 和 generateItemsets 获取频繁事件集,如“items”所示。但在这种情况下,我只想要输出中的超集,即“{c,a,b}”和“{a,b,d}”。我该怎么做才能仅在 R 中获得超集?
r - R arules,仅从特定列中挖掘规则
我想挖掘特定的 rhs 规则。文档中有一个示例表明这是可能的,但仅适用于特定情况(如下所示)。首先一个数据集来说明我的问题:
现在我可以创建规则:
要查看规则:
我只想挖掘在 rhs 上有 b=... 的规则。对于特定值,可以通过添加:
先验命令。当然,如果我想找到他们,我也必须调整信心。问题在于 b 列中的元素数量。在这个例子中,我可以手动输入“b=.....”格式的所有元素,但我不能在我自己的数据中输入。
我尝试使用 unique() 获取 b 的值,然后将其提供给 rhs,但它会产生错误,因为我给出的值如下:“100001”“100002”而不是“b=100001”“b=100002” .
是否只能从特定列中获取 rhs 规则?
如果没有,是否有一种简单的方法可以从“当前”生成“想要”?
这个问题有点相关:Creating specific rules with arules in r 但这对我来说有同样的问题,只是方式不同。
algorithm - 关于 Apriori 算法
我试图找到给定数据的频繁项集。在这种情况下,这是一个关于汽车数量的简单示例,如果某个年龄的人已婚或未婚。
1 项集和 2 项集的集合如下:
(不要关心括号中的数字,它只是这个项目集的频繁;在这个例子中给定 min_support 是 0.1)
现在我想获得频率。来自频率的 3 个项目集。2项集。在这种情况下,我可以结合两个频率。2-项目集,谁的交集只有一个元素。现在我必须检查这个组合的所有子集(大小为 2)是否都是频率中的元素。2项集。
如果我这样做,我会得到以下信息:
但是现在,如您所见,我得到了一个频率。3-itemset,它的频率为 0。因此它不应该在 freq 的集合中。3项集。
如果我让我们从例如 Weka ( http://www.cs.waikato.ac.nz/ml/weka/ ) 计算这个示例,则所述项集不会出现在结果中。
但我可以通过组合 {age:[25,29],married:[no]} 和 {married:[no],num_cars:[1,1]} 来生成它。
所以我的问题是:
我在生成频繁项集时是否犯了错误(我的程序在上面构建了这个),或者如果子集是 freq 的元素,我是否必须首先过滤生成的候选者。2-项目集,然后如果频繁大于 0 ???
我希望我能清楚地解释我的问题......
谢谢您的帮助!!
database - 如何计算 {A}->{B,C} 等合并项集的支持/置信度和提升
我有一个项目集列表{A_i}->{X}
。
喜欢:
现在我想合并项目集,如:
但我不知道如何计算每条规则的支持、信心和提升。
这是总和/计数还是所有类似项目集的最小值?
对于支持,所有类似集合的最小支持都是有意义的。但是信心和提升?
weka - 如何表示 Weka 的标签列表?
我想使用关联算法(Apriori),但我的记录有任意标签,即
即,以逗号分隔的标签列表作为带引号的文本字段填充在每条记录的末尾。
当通过 Pentaho Kettle 中的 ARFF 插件运行时,此列的输出为“标称”,每个标签组合为离散值。
正确的做法是让每个标签都被视为布尔值,这样它就可以拥有独立于其他标签的独立值。
实现这一目标的最简单方法是什么?
r - 使用变量而不是数据集名称使用 data() 将数据集加载到 R 中
我正在尝试使用 data() 函数将数据集加载到 R 中。当我使用数据集名称(例如data(Titanic)
或data("Titanic")
)时,它工作正常。对我不起作用的是使用变量而不是其名称加载数据集。例如:
为什么 R 寻找名为“myvar”的数据集,因为它没有被引用?由于这是默认行为,是否有办法加载存储在变量中的数据集?
作为记录,我想做的是创建一个使用“arules”包并使用 Apriori 挖掘关联规则的函数。因此,我需要将数据集作为参数传递给该函数。
编辑- sessionInfo() 的输出:
我得到的实际错误(例如,使用示例数据集“xyz”):
rapidminer - Rapidminer 中的 W-apriori
我需要在 Rapidminer 中使用 apriori 算法创建关联规则,但我似乎无法使其工作。我正在使用 5.3.1 weka 扩展。
我已经使用内置的 FP-Growth 和 Create Associations 运算符创建了关联规则,并且它按预期工作。这个过程是这样的:
因为我所有的属性都已经是二项式,所以我可以直接使用 FP-Growth。但是如果我对先验使用相同的方法(置信度=0.1,支持度=0.1):
结果,我没有得到我想要的东西:
(...)