问题标签 [apriori]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4966 浏览

r - arules:如何在 R 或 SQL WHERE 子句中找到与 lhs(rule) 匹配的数据?

我发现使用 arule 包有点棘手。我正在使用先验算法来查找关联规则;类似于 arules 文档中的示例。

它返回以下四个规则

我一定遗漏了一些东西:您如何仅使用 arules 函数在源数据中找到与 lhs 规则匹配的行?

有没有一种简单的方法可以从 lhs(rules) 构建 SQL WHERE 子句?

谢谢

0 投票
1 回答
223 浏览

java - Weka java:制作arff文件

我在 java 中创建了一个 ARFF 文件,但我会从计算中排除最后两个属性(TAG、idSentence)

是否有任何特定的过滤器可以让我从先验属性 TAG 和 idSentence 的计算中排除?

编辑:我设置了过滤器 weka.filters.unsupervised.attribute.Remove 并设置了最后两个属性,并且在我执行 apriori 之后不久!我认为这是正确的!

0 投票
3 回答
5325 浏览

csv - 为什么即使标称值也禁用了weka关联先验启动按钮?

我在 *.xls 中有三个临床数据文件。我将这三个文件保存在 microsoft excel 中作为 *.csv 文件。然后我将这些 *.csv 文件导入到 Weka 工具中。为了使用 Apriori 关联规则,我通过“weka>>filters>>unsupervised>>attribute>>NumericToNominal”将数据类型更改为 Nominal 数据类型。但是,在“关联”选项卡中,不能使用 Apriori 规则,因为“开始”按钮被禁用。

我该如何解决这些问题?在 Weka 工具中使用 Apriori 规则还有其他限制吗?...

非常感谢 !

此致,

安华

0 投票
1 回答
166 浏览

apriori - 使用先验算法计算支持度

如果我们有以下交易

是支持 {2} = 2 和支持 {3} =2 还是我们删除重复项

0 投票
2 回答
912 浏览

data-mining - 带有关联规则挖掘的情感分析

我正在尝试提出一种算法,以在同一个句子中找到该产品最常用的前 3 个形容词。我想使用关联规则挖掘(Apriori 算法)。

为此,我计划使用 twitter 数据。我可以或多或少地将 twits 分解成句子,然后通过过滤,我可以找到产品名称和形容词。

例如,过滤后我有类似的数据;

ipad mini,不错

ipad mini,太可怕了

三星galaxy s2,最好的

... ETC。

产品名称和形容词是先前定义的。所以我有一组产品名称和一组我正在寻找的形容词。

我读过几篇关于情感分析和规则挖掘的论文,他们都说使用了 Apriori 算法。但他们没有说他们是如何使用它的,也没有提供细节。

我在想的是;

我应该为每个产品分别找到常用的形容词。然后通过排序,我可以获得前 3 个形容词。但我不知道它是否正确。

0 投票
1 回答
1019 浏览

data-mining - 使用 Weka 处理关联规则的缺失值

我是 Weka 的新手,遇到了一个问题。我有一个包含大约 13 个特征的数据集(全是二进制的)。某些功能仅适用于一小组数据。当我使用 Weka 运行关联规则挖掘时,它基于特征值为 0(0 表示该特征不适用)来识别属性之间的强关联。

我希望仅针对积极特征确定相关关系。我该怎么做呢?

0 投票
1 回答
3494 浏览

algorithm - Apriori 算法运行时间

1994 年引入的基本 Apriori 算法的时间复杂度是多少?如果可能,请引用参考论文/文章来支持响应。谢谢你。

0 投票
1 回答
159 浏览

data-mining - 情绪分析以找到推文中产品的前 3 个形容词

有一个情感分析工具可以找出人们对社交网络的看法。该工具可以: (1) 将文档分解为一组句子。

(2)将每个句子分解成一组词,并进行过滤,只保留产品名称和形容词。

例如“这台 MacBook 棒极了。索尼比 Macbook 更好。”

处理后,我们可以得到:

{MacBook,真棒}

{索尼,更好}。(不是事实:D)

我们只是假设存在一个我们将永远关心的产品名称列表 P,并且存在一个我们永远关心的形容词列表 A。

我的问题是:

  1. 我们能否将这个问题简化为一个专门的关联规则挖掘问题?如何解决?如果是,则需要注意任何事情,例如缩减、参数设置(minsup 和 minconf)、附加约束以及修改 Aprior 算法以解决问题。

  2. 有什么方法可以人为地向结果发送垃圾邮件,例如在前 1 个形容词中添加“可怕”?有什么好的方法可以防止这种垃圾邮件吗?

谢谢。

0 投票
1 回答
72 浏览

java - 没有按预期获得子集

我正在尝试查找数据集中频繁项目的数量。所以最初我试图找到输入字符串的子集

到目前为止我所做的是

输出是

我希望子集为

这里coke越来越repeated

我做错什么了吗。

请指教。

0 投票
1 回答
3676 浏览

r - 在 R 编程中将 arules 事务数据转换为项目矩阵

我有一个包含 100,000 行的数据集,交易格式如下

我想将其转换为如下矩阵格式(或 TRUE/FALSE 标志)

我尝试了以下步骤

但是,在我的列表转换中,我得到的输出为

所以有些行是完美的,但在某些行中,唯一 id 被添加到带有 \t 和 \n 的电影列表中

我想要以下格式的列表 9C05-EE9B44E8C18F c("Bruce Almighty","Iron Man","Toy Story")

这样我相信我会很容易地达到所需的结果。非常感谢您的帮助。