问题标签 [market-basket-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 arules 中,如何将稀疏数据帧转换为事务?
嗨,我有一个像这样的杂货订单稀疏数据框
然而,结果包括 0s(未订购的项目),如下所示: lhs rhs support confidence lift count {banana=0} => {apple=1} 0.5 0.6 1.2 3
如何忽略数据框中的 0,或将数据框转换为类似
谢谢。
r - 如何计算每个附加 LHS 价值规则的收益
我需要知道如何做一个简单的计算,但不记得怎么做。
如果我完成了购物篮分析,结果如下:
面包 => 牛奶:信心 = .6
奥利奥 => 牛奶:信心 = .5
什么是信心:
面包、奥利奥 => 牛奶:信心是什么=?
sas - 关联规则挖掘(信心和提升)
我目前正在为我的大学运营一个特定的项目。我将在项目中做的是建立一个带有关联规则挖掘的交叉销售模型。
结果,我有很多规则,但我不确定如何对它们进行排名,哪个是最好的。
哪个选项会更好,如果
选项1:Confidence=20% Lift= 5
选项 2:Confidence = 50% Lift = 2
我知道信心很重要,但我听说Lift
也很重要。我应该牺牲一些信心来获得更多的提升还是保持平衡?
r - R 中的 read.transactions 导致行似乎包含嵌入的 null
在 RStudio 中使用附加的数据集,我收到以下错误消息:
在以下代码之后:
我正在尝试使用“arules”包为 Apriori 分析设置数据。根据其他 StackOverflow 帖子和 CRAN 文档,我尝试向上述代码添加编码选项......但它们似乎不起作用。
我究竟做错了什么?
r - 当具有相同项目时,支持两个不同项目集之间的减法
使用 arules,我有两个项目集,当有相同的项目时,我想在两个不同的项目集之间做减法。
您可以看到项集 fsets_model_test和项集 fsets_nonsesmic_test具有相同的项{TOTO3=15,MODIS_LST=1}
我想要做的是减去两个项目集之间的支持,在上面的例子中是 0.02432556 - 0.01265045 = 0.01167511,然后得到一个新的项目集。
如何在 arules 中实现这一点,谢谢
以下是示例项集
一个项目集
另一个项集是:
python-3.x - Python中的关联分析-groupby上的内存错误
我正在对“市场篮子”之类的问题进行关联分析(查找一起销售的产品)。我有一个 12 个月的数据集,包含 150Mb 的数据,大约 7mi 的寄存器(发票和产品,以及其他数据)。我认为不值得去 Hadoop。我正在学习本教程(http://pbpython.com/market-basket-analysis.html),但我在 df.unstack() 中遇到内存错误部分。
如果您发现可以改进的地方,请告诉我。我会很感激的。
r - R中项目值的规则替换
所以,我试图让 arules 处理我的数据,我有 transaction_ID、Item_name 和 Item_ID。但是如果我为 item_name 和 transaction_ID 调用 apriori 函数,太慢了,但如果我用 item_id 和 transaction_ID 调用它真的很快。那么,有没有办法用 item_id 创建规则,然后用 ids 代替它的真实姓名?这是一个可以使用的代码示例:
r - R:关联规则(arules)没有写任何规则——我的数据集太小了吗?
我已经在线阅读了 Stack 和各种文档,但仍然无法正常工作。
我有一个包含 5,368 笔交易的数据集。它们以 Excel 表格的形式出现,其中包含一堆不同的列 - CustomerID、ItemID 和 OrderID(见下文,数据从 A1:C10 中显示)。
我有3个问题:
具体来说数据需要采用什么格式?我尝试使用下面显示的所有 3 种格式来阅读它。我可以让 read.transactions 以任何这些格式读取数据,但是当我去运行 apriori 时,它只给了我 1 条规则(或者有时没有)。即使要获得该规则,我也必须将置信度设置为 0.01,并且 lhs 始终为空白。
我最近一次尝试使用第 21 行显示的格式。我什至删除了所有单笔交易(第 23 和 24 行)。然后我运行了这个语法:
我想我什至尝试过:
- 您的数据集需要多大?我的数据集是 5,368 行,其中只有 366 行涉及多个事务(所以数据中的大多数行就像下面的第 6 行),所以我的整体数据中大约只有 7% 有多个项目篮子。这就是我没有规则的原因吗?这就是我尝试消除所有单一篮子订单的原因,但即使这样也无济于事。
python - 市场篮子分析
我有以下关于零售店的熊猫交易数据集:
我想为购物篮分析创建以下数据集:
简而言之,如果交易具有相同的 Assistant_name 和 Date,我假设它确实会生成新的 Invoice。
apache-spark - 在 Spark 上为 fpgrowth 准备二进制表示的数据
我目前正在研究来自 Kaggle 的 Santander Product Recommendation 数据集,以对 FPGrowth 进行实验。
来自 pyspark (ML) 的 FPGrowth 算法需要数据框作为项目集:
但是我拥有的数据是这种格式:
我试图通过用列名替换 1 并从中创建列表来解决它,但这不起作用。
有没有办法通过使用 Spark 数据框函数来执行这种转换?
非常感谢你!