问题标签 [apriori]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - arules:如何在 R 或 SQL WHERE 子句中找到与 lhs(rule) 匹配的数据?
我发现使用 arule 包有点棘手。我正在使用先验算法来查找关联规则;类似于 arules 文档中的示例。
它返回以下四个规则
我一定遗漏了一些东西:您如何仅使用 arules 函数在源数据中找到与 lhs 规则匹配的行?
有没有一种简单的方法可以从 lhs(rules) 构建 SQL WHERE 子句?
谢谢
java - Weka java:制作arff文件
我在 java 中创建了一个 ARFF 文件,但我会从计算中排除最后两个属性(TAG、idSentence)
是否有任何特定的过滤器可以让我从先验属性 TAG 和 idSentence 的计算中排除?
编辑:我设置了过滤器 weka.filters.unsupervised.attribute.Remove 并设置了最后两个属性,并且在我执行 apriori 之后不久!我认为这是正确的!
csv - 为什么即使标称值也禁用了weka关联先验启动按钮?
我在 *.xls 中有三个临床数据文件。我将这三个文件保存在 microsoft excel 中作为 *.csv 文件。然后我将这些 *.csv 文件导入到 Weka 工具中。为了使用 Apriori 关联规则,我通过“weka>>filters>>unsupervised>>attribute>>NumericToNominal”将数据类型更改为 Nominal 数据类型。但是,在“关联”选项卡中,不能使用 Apriori 规则,因为“开始”按钮被禁用。
我该如何解决这些问题?在 Weka 工具中使用 Apriori 规则还有其他限制吗?...
非常感谢 !
此致,
安华
apriori - 使用先验算法计算支持度
如果我们有以下交易
是支持 {2} = 2 和支持 {3} =2 还是我们删除重复项
data-mining - 带有关联规则挖掘的情感分析
我正在尝试提出一种算法,以在同一个句子中找到该产品最常用的前 3 个形容词。我想使用关联规则挖掘(Apriori 算法)。
为此,我计划使用 twitter 数据。我可以或多或少地将 twits 分解成句子,然后通过过滤,我可以找到产品名称和形容词。
例如,过滤后我有类似的数据;
ipad mini,不错
ipad mini,太可怕了
三星galaxy s2,最好的
... ETC。
产品名称和形容词是先前定义的。所以我有一组产品名称和一组我正在寻找的形容词。
我读过几篇关于情感分析和规则挖掘的论文,他们都说使用了 Apriori 算法。但他们没有说他们是如何使用它的,也没有提供细节。
我在想的是;
我应该为每个产品分别找到常用的形容词。然后通过排序,我可以获得前 3 个形容词。但我不知道它是否正确。
data-mining - 使用 Weka 处理关联规则的缺失值
我是 Weka 的新手,遇到了一个问题。我有一个包含大约 13 个特征的数据集(全是二进制的)。某些功能仅适用于一小组数据。当我使用 Weka 运行关联规则挖掘时,它基于特征值为 0(0 表示该特征不适用)来识别属性之间的强关联。
我希望仅针对积极特征确定相关关系。我该怎么做呢?
algorithm - Apriori 算法运行时间
1994 年引入的基本 Apriori 算法的时间复杂度是多少?如果可能,请引用参考论文/文章来支持响应。谢谢你。
data-mining - 情绪分析以找到推文中产品的前 3 个形容词
有一个情感分析工具可以找出人们对社交网络的看法。该工具可以: (1) 将文档分解为一组句子。
(2)将每个句子分解成一组词,并进行过滤,只保留产品名称和形容词。
例如“这台 MacBook 棒极了。索尼比 Macbook 更好。”
处理后,我们可以得到:
{MacBook,真棒}
{索尼,更好}。(不是事实:D)
我们只是假设存在一个我们将永远关心的产品名称列表 P,并且存在一个我们永远关心的形容词列表 A。
我的问题是:
我们能否将这个问题简化为一个专门的关联规则挖掘问题?如何解决?如果是,则需要注意任何事情,例如缩减、参数设置(minsup 和 minconf)、附加约束以及修改 Aprior 算法以解决问题。
有什么方法可以人为地向结果发送垃圾邮件,例如在前 1 个形容词中添加“可怕”?有什么好的方法可以防止这种垃圾邮件吗?
谢谢。
java - 没有按预期获得子集
我正在尝试查找数据集中频繁项目的数量。所以最初我试图找到输入字符串的子集
到目前为止我所做的是
输出是
我希望子集为
这里coke
越来越repeated
。
我做错什么了吗。
请指教。
r - 在 R 编程中将 arules 事务数据转换为项目矩阵
我有一个包含 100,000 行的数据集,交易格式如下
我想将其转换为如下矩阵格式(或 TRUE/FALSE 标志)
我尝试了以下步骤
但是,在我的列表转换中,我得到的输出为
所以有些行是完美的,但在某些行中,唯一 id 被添加到带有 \t 和 \n 的电影列表中
我想要以下格式的列表 9C05-EE9B44E8C18F c("Bruce Almighty","Iron Man","Toy Story")
这样我相信我会很容易地达到所需的结果。非常感谢您的帮助。