问题标签 [fpgrowth]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linear-regression - 重复测量的多重回归?
因此,我试图分析一些海草恢复数据,我每月测量枝条密度,并试图查看深度和物种或任何组合是否对海草的恢复贡献更大。我正在考虑进行多重回归,但有没有办法让它认为这是每月完成的?或者我应该只在回归中包含月份?
PS数据肯定很多正常
apache-spark - model.freqItemsets FPGROWTH 算法是 spark 2.4 没有显示完整数据集的任何结果
model.freqItemsets
FPGROWTH 算法是 spark 2.4 未显示 16GB 完整数据集的任何结果,但相同的模型或代码适用于 1Gb 样本数据集,它们是 16GB 数据集中的子集或样本数据集
代码片段
我得到以下输出:
associations - 在 rapidminner 中用于 FP-Growth 挖掘的数据标准是什么?
我想在 RapidMiner 中处理这样的数据集:
order_id | 项目1 | 项目2 | 项目3
1 | 书 | 书 | 铅笔
2 | 铅笔| 高分辨率照片| CLIPARTO 书 | 橡皮
我想使用 fp-growth 和关联规则处理这些数据。什么是适合 RapidMiner 规则的合适数据集?
rapidminer - RapidMiner - 为每个日期生成关联规则
python - 为什么 FP-Growth 会返回多个结果?
我正在使用Orange3-Associatefpgrowth
中的模块从文件中的事务中查找规则。我正在使用这个脚本:
但是,当 I 时print(rules)
,ConsequentQ
显示为 2 个或更多项目的列表。输出:
[3, 5], [1, 2], 1, 1.0
为什么会出现这种情况?结果不是应该只有一项吗?
scala - 我无法在 spark 中拟合 FP-Growth 模型
拜托,你能帮帮我吗?我有一个 80 个 CSV 文件数据集和一个由一个主设备和 4 个从设备组成的集群。我想读取数据帧中的 CSV 文件并将其并行化到四个从站上。之后,我想用 group by 过滤数据框。在我的 spark 查询中,结果包含按(“code_ccam”、“dossier”)分组的“code_ccam”和“dossier”列。我想使用 FP-Growth 算法来检测由“文件夹”重复的“code_ccam”序列。但是当我使用 FPGrowth.fit() 命令时,出现以下错误:
这是我的火花命令:
apache-spark - Pyspark + 关联规则挖掘:如何将数据帧转换为适合频繁模式挖掘的格式?
我正在尝试使用 pyspark 进行关联规则挖掘。假设我的数据是这样的:
但根据https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html,格式应该是:
所以我需要将我的数据从垂直传输到水平,并且所有 id 的长度都不同。
我该如何进行这种转移,或者有其他方法可以做到吗?
pyspark - 如何在 python 中有效地导出使用 .CSV 或 .XLSX 文件中的 pyspark 生成的关联规则
解决此问题后: 如何将 FPGrowth 项目集限制为 2 或 3 我正在尝试使用 pyspark 将 fpgrowth 的关联规则输出导出到 python 中的 .csv 文件。运行近 8-10 小时后,它给出了一个错误。我的机器有足够的空间和内存。
代码在链接中: 如何将 FPGrowth 项目集限制为 2 或 3 只需再添加一行
使用的配置:
这继续运行并消耗了我的 C:/ 驱动器的 1000GB
是否有任何有效的方法可以将输出保存为 .CSV 格式或 .XLSX 格式。
错误是: