问题标签 [market-basket-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
166 浏览

r - 清理自由文本然后变成事务数据集的最佳方法

我的调查信息包含我想清理的自由文本,然后放入事务数据集以在 arules R 包中运行。现在文本看起来像这样。

这是我正在尝试做的事情:

现在我已经能够使用tm包清理数据,但我不知道将其转换为事务数据集的最佳方法是什么。我已将信息全部转换为小写并删除了停用词。

假设我的数据位于名为“问题”的数据框中。清理后,我无法将语料库转换为交易数据集。

0 投票
0 回答
685 浏览

python - Apriori - 关联规则

我已经将先验应用于我的框架矩阵。但是,我得到以下仅包含一个字母的规则。为什么规则只创建一个字母而不是一个单词?

0 投票
1 回答
1153 浏览

mongodb - 如何从头开始实施关联规则分析或市场篮子分析?

我尝试阅读大量文章,试图了解将关联分析(可能是购物篮分析)纳入我的系统的第一步应该是什么。他们都深入到算法的实现中,但没有人首先谈论如何存储数据。如果有人能给我一些我可以开始的开始指针或文章链接,我将非常感激。

我要实现的第一件事是跟踪用户点击并根据跟踪的数据提供建议。例如,用户点击了链接 A,随后点击了链接 B 和链接 C。我可以使用相关的元数据(用户、用户组织、用户角色等)来跟踪此活动

我不希望它仅限于链接。将来,我想在系统中添加一些类似的用例,并让它变得更智能。例如,如果用户为字段 A 和 B 设置特定值,他/她很可能会<bla>为字段 C设置值。

我的系统一天可能会生成数千个这样的数据点(例如用户点击、字段选择等)。

以下是我的问题:

  1. 我应该如何存储我的数据?Go SQL 或 No SQL(我简要地研究了 Mongo DB,它看起来很有希望)

  2. 我应该使用什么工具来执行关联分析?我可以使用任何开源工具吗?

0 投票
1 回答
249 浏览

data-mining - 从原始数据创建和执行购物篮分析

我有一个数据集,其中包含许多商品及其销售数据,包括每周销售的数量和数量。我想弄清楚两者之间是否存在某种相关性,试图了解一件商品的销售是否会影响另一件商品的销售,就任何积极或消极影响而言。考虑以下类型的数据:

因此,从上述每周数据中,我想弄清楚如何将这些数据转换为具有上述可用参数集的市场篮子数据形式。因为,没有任何可用的市场篮子数据。

所以,基本上我必须想出一个项目如何与一个产品与另一个产品的亲和力相关。无论它是正相关还是负相关。唯一的问题是我没有任何主键来将商品与篮子或订单号绑定,因为它是汇总销售。本主题的任何答案或帮助都非常可观。如果您发现它不完整,您可以让我知道以进一步澄清。

0 投票
3 回答
2272 浏览

r - 如何在包规则中获取事务中的项目列表

我知道您可以使用查看每个交易的内容inspect然后自己提取项目,但是有没有一种方便的方法来获取属于交易的所有项目的列表?

0 投票
2 回答
1273 浏览

r - 在 r 中解析 as.transactions

我一直在努力重写与 data.frames 一起使用的代码以与 ffdf 一起使用。我有两列,经过一番大惊小怪,我设法进行了拆分并获得了一个具有以下外观的列表:

其中 A,B 是“篮子”或分组,以及“1 2 3”特定的分组项目。我现在想要的是将这些转换为交易,并希望能够做到先验。我试过简单的

从 data.frame 生成“数据”时效果很好,但现在会产生错误:

我已经看到重复的项目会导致这些问题,所以我已经消除了这些问题,但错误仍然存​​在。

0 投票
1 回答
559 浏览

r - R中的CSPADE方法抛出错误:类“事务”的这个对象没有名称“事务信息”的槽

为 CSPADE 算法运行以下方法时,我在 R 中遇到错误(在事务中查找关联规则):

“x”是一个事务对象,它被成功创建,但由于某种原因,cspade 方法不起作用(即使在其文档中提供的经典数据集上也是如此)

0 投票
1 回答
455 浏览

apache-spark - Spark MLlib FPGrowth 正在运行但不显示频繁项集

我正在尝试使用 MLlib 的 FPGrowth 对交易数据进行基本的购物篮分析。我已将交易编码为类似格式:

数组中的各个数字是我的产品 id 作为字符串(如 68113132893、7976503128 等)。

现在,当我运行 FPGrowth 模型时,它运行时没有任何错误:

但是当我试图获取频繁项集时,它显示的是空白数组

无法找到问题所在。请帮忙!

0 投票
1 回答
48 浏览

apache-spark - 避免关联规则的一些意外结果

我试图从这个数据集中提取一些关联规则:

我有这个代码:

但是我的输出中出现了一些意想不到的行:

为什么我得到这样的输出:

我不明白这个问题......有人知道如何解决这个问题吗?

非常感谢!

0 投票
0 回答
58 浏览

scala - Spark MLlib - SQLContext - 根据前 3 个值对项目进行分组

我正在尝试使用带有此数据集的 Spark MLlib 进行一些篮子市场分析:

交易价值(价值)按每个 Purchase_ID 分组。而我想要的只是返回价值更高的前3个类别。基本上,我想返回这个数据集:

为此,我正在尝试使用以下代码:

排名函数不正确...

任何人都知道如何解决这个问题?

非常感谢!