问题标签 [market-basket-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R将数据框转换为篮子格式
我想以篮子格式转换我的数据,我的原始数据是
我想将 ABC 转换为交易中的单独项目。b/c 当我对我的原始数据应用 Apriori 时,它将 ABC 作为单个项目。我想把它转换成
以便将 A、B 和 C 转换为单个项目。
data-visualization - SPARK MLilb - 使用 Spark 将产品从矩阵中放入图表
我有一个具有以下结构的数据集(篮子市场分析问题):
我正在尝试确定是否存在任何可以允许我在此矩阵上创建一些数据可视化的算法(例如网络可视化 - prod1 与 prod 2 非常相关)。
有人知道进行这种可视化的好算法吗?
谢谢!
r - 如何在 R 的同一个图中绘制两个或多个`itemFrequencyPlot`?
我正在分析来自在线商店的数据。我已经计算了所有项目的“itemFrequencyPlot”,现在我想取出最常销售的前 5 个项目并将它们绘制在同一个图表中。我尝试了一些事情但没有成功:(
例如,这就是我如何在不同的图表中绘制 2 个项目。
r - 如何找到支持关联规则评估的指标?
我已将关联规则应用于在线商店的数据集(http://archive.ics.uci.edu/ml/datasets/Online+Retail#)。我有 4 个规则(规则 A、B、C 和 D)。检查每个规则的每个项目的时间序列时(图表在 x 轴上显示月份,在 y 轴上显示每个项目的销售额)。
例如,如果规则 A 有项目 1 和项目 2,并且这两个项目的月份销售额遵循相同的模式。这足以认为我找到了一个好的规则吗?如果不是,我可以使用哪种方法来评估关联规则?(任何学术论文都会非常有用)
谢谢!
r - lhs %ain% newBasket 中的 ARULES 包错误:表包含未知项目标签
摘要:
我正在使用 Arule 包使用 RStudio 创建篮子分析规则。我将 WorkSpace 保存到一个文件(即x.RDATA)。并使用 VS.NET 中的 R.DOTNET Nuget PackAge 来查询规则。我正在调用 RFunction 发送参数。
到目前为止没有问题。但是....当我发送 ARule 函数中不存在的 ProductCode 时,它会引发错误。
lhs %ain% newBasket 中的错误:表包含未知项目标签
我使用数据集Groceries来重现场景。在我看来,该产品不可能出现在模型中。
它可能是新产品,也可能由于其低信心、支持或提升而在规则中不存在
当我用参数“热带水果”、“酸奶”调用函数时,没有问题。
结果:
但是,如果我使用参数“ tropical NEW PRODUCT ”、“yogurt”调用该函数,则会引发错误。
我该如何处理这个错误?
r - 使用 Hadoop 在 R 中进行市场购物篮分析
我试图找到一种快速的方法来对具有几百万行的交易市场篮子数据进行亲和力分析。
到目前为止我所做的:
- 在云上的 Spark 和 Hadoop (Azure HDInsight) 之上创建了一个 R 服务器
- 在 HDFS 上加载数据
- 开始使用 RevoScaleR
但是,我在最后一步卡住了。据我了解,我将无法使用 RevoScaleR 中未提供的功能来处理数据。
下面是访问 HDFS 上数据的代码:
所以我的 infputFile 是已在 /basket/gunluk 创建的 Azure Blob 中的 CSV
运行后,我可以使用 head(gunluk_data) 查看数据。
我如何设法将gunluk_data与arules包功能一起使用。这可能吗?
如果没有,是否可以使用常规 R 包(即 arules)处理 HDFS 中的 CSV 文件?
apache-spark - Spark 1.6 - 删除只有 1 个项目的项目集
我有以下代码:
我正在尝试提取一些关联规则。为此,我需要保证所有交易都按不止一种产品分组。但是使用我的代码,我只使用一种产品进行交易。
我该如何过滤?
谢谢!
r - itemMatrix 对象的事务摘要()错误
我正在尝试使用该arules
包进行一些购物篮分析,但是当我summary()
在对象上使用该函数itemMatrix
来检查哪些是最常见的项目时,数字不会相加。如果我做:
我得到:
但如果我用for
循环检查,甚至在 Excel 中检查,产品 45 的计数是 513 而不是 503。28 也是如此,应该是 499,依此类推。奇怪的是,如果我将所有总数相加,(15474+413+440+444+462+503)
我会得到交易产品总数的正确数字。
数据有几个NA
值,产品是因素。
这是原始数据(Day 范围从 1 到 28,Product 范围从 1 到 50):