问题标签 [market-basket-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
298 浏览

r - 在 arules 中,如何将稀疏数据帧转换为事务?

嗨,我有一个像这样的杂货订单稀疏数据框

然而,结果包括 0s(未订购的项目),如下所示: lhs rhs support confidence lift count {banana=0} => {apple=1} 0.5 0.6 1.2 3

如何忽略数据框中的 0,或将数据框转换为类似

谢谢。

0 投票
1 回答
42 浏览

r - 如何计算每个附加 LHS 价值规则的收益

我需要知道如何做一个简单的计算,但不记得怎么做。

如果我完成了购物篮分析,结果如下:

面包 => 牛奶:信心 = .6

奥利奥 => 牛奶:信心 = .5

什么是信心:

面包、奥利奥 => 牛奶:信心是什么=?

0 投票
1 回答
881 浏览

sas - 关联规则挖掘(信心和提升)

我目前正在为我的大学运营一个特定的项目。我将在项目中做的是建立一个带有关联规则挖掘的交叉销售模型。

结果,我有很多规则,但我不确定如何对它们进行排名,哪个是最好的。

哪个选项会更好,如果

选项1:Confidence=20% Lift= 5

选项 2:Confidence = 50% Lift = 2

我知道信心很重要,但我听说Lift也很重要。我应该牺牲一些信心来获得更多的提升还是保持平衡?

0 投票
0 回答
493 浏览

r - R 中的 read.transactions 导致行似乎包含嵌入的 null

在 RStudio 中使用附加的数据集,我收到以下错误消息:

在以下代码之后:

我正在尝试使用“arules”包为 Apriori 分析设置数据。根据其他 StackOverflow 帖子和 CRAN 文档,我尝试向上述代码添加编码选项......但它们似乎不起作用。

我究竟做错了什么?

0 投票
1 回答
34 浏览

r - 当具有相同项目时,支持两个不同项目集之间的减法

使用 arules,我有两个项目集,当有相同的项目时,我想在两个不同的项目集之间做减法。

您可以看到项集 fsets_model_test项集 fsets_nonsesmic_test具有相同的项{TOTO3=15,MODIS_LST=1}

我想要做的是减去两个项目集之间的支持,在上面的例子中是 0.02432556 - 0.01265045 = 0.01167511,然后得到一个新的项目集。

如何在 arules 中实现这一点,谢谢

以下是示例项集

一个项目集

另一个项集是:

0 投票
0 回答
409 浏览

python-3.x - Python中的关联分析-groupby上的内存错误

我正在对“市场篮子”之类的问题进行关联分析(查找一起销售的产品)。我有一个 12 个月的数据集,包含 150Mb 的数据,大约 7mi 的寄存器(发票和产品,以及其他数据)。我认为不值得去 Hadoop。我正在学习本教程(http://pbpython.com/market-basket-analysis.html),但我在 df.unstack() 中遇到内存错误部分。

如果您发现可以改进的地方,请告诉我。我会很感激的。

0 投票
1 回答
598 浏览

r - R中项目值的规则替换

所以,我试图让 arules 处理我的数据,我有 transaction_ID、Item_name 和 Item_ID。但是如果我为 item_name 和 transaction_ID 调用 apriori 函数,太慢了,但如果我用 item_id 和 transaction_ID 调用它真的很快。那么,有没有办法用 item_id 创建规则,然后用 ids 代替它的真实姓名?这是一个可以使用的代码示例:

0 投票
2 回答
896 浏览

r - R:关联规则(arules)没有写任何规则——我的数据集太小了吗?

我已经在线阅读了 Stack 和各种文档,但仍然无法正常工作。

我有一个包含 5,368 笔交易的数据集。它们以 Excel 表格的形式出现,其中包含一堆不同的列 - CustomerID、ItemID 和 OrderID(见下文,数据从 A1:C10 中显示)。

我有3个问题:

  • 具体来说数据需要采用什么格式?我尝试使用下面显示的所有 3 种格式来阅读它。我可以让 read.transactions 以任何这些格式读取数据,但是当我去运行 apriori 时,它只给了我 1 条规则(或者有时没有)。即使要获得该规则,我也必须将置信度设置为 0.01,并且 lhs 始终为空白。

  • 我最近一次尝试使用第 21 行显示的格式。我什至删除了所有单笔交易(第 23 和 24 行)。然后我运行了这个语法:

我想我什至尝试过:

  • 您的数据集需要多大?我的数据集是 5,368 行,其中只有 366 行涉及多个事务(所以数据中的大多数行就像下面的第 6 行),所以我的整体数据中大约只有 7% 有多个项目篮子。这就是我没有规则的原因吗?这就是我尝试消除所有单一篮子订单的原因,但即使这样也无济于事。

在此处输入图像描述

0 投票
2 回答
504 浏览

python - 市场篮子分析

我有以下关于零售店的熊猫交易数据集:

我想为购物篮分析创建以下数据集:

简而言之,如果交易具有相同的 Assistant_name 和 Date,我假设它确实会生成新的 Invoice。

0 投票
1 回答
251 浏览

apache-spark - 在 Spark 上为 fpgrowth 准备二进制表示的数据

我目前正在研究来自 Kaggle 的 Santander Product Recommendation 数据集,以对 FPGrowth 进行实验。

来自 pyspark (ML) 的 FPGrowth 算法需要数据框作为项目集:

但是我拥有的数据是这种格式:

我试图通过用列名替换 1 并从中创建列表来解决它,但这不起作用。

有没有办法通过使用 Spark 数据框函数来执行这种转换?

非常感谢你!