问题标签 [fpgrowth]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Pyspark FP 增长实现运行缓慢
我在 Spark v2.3 上使用关联规则挖掘的 pyspark.ml.fpm (FP Growth) 实现。
spark UI 显示作为结束的任务运行非常缓慢。这似乎是一个常见问题,可能与数据倾斜有关。
这是真正的原因吗?有什么解决办法吗?
我不想更改 minSupport 或 minConfidence 阈值,因为这会受到结果的影响。删除列也不是解决方案。
python - 在 Python 中使用 FP-Growth 算法来确定最频繁的模式
我使用 mlxtend.frequent_patterns fpgrowth 库在 python 中使用了 FP-Growth 算法。我遵循了他们页面中提到的代码,并且生成了我认为是递归的规则。我已经使用这些规则形成了一个数据框。现在我正在尝试使用循环计算支撑和提升,但这需要很多时间,我发现这效率低下。
我使用的代码如下:
有没有其他更简单的方法来使用 FPGrowth 计算支撑和提升?
python - 无法将 org 模块导入 PySpark 集群
我正在尝试从 org 模块导入 FPGrowth,但在安装 org 模块时会引发错误。我还尝试将 org.apache.spark 替换为 pyspark,仍然无法正常工作。
以下是错误:
python-3.x - 如何解释 Mlxtend 关联规则的结果
我正在使用mlxtend
查找关联规则:
这是代码:
输出:
我给了一个min support=0.4
. antecedentsupport
和consequentsupport
和有什么区别support
?
lift and leverage?
如何判断它的好坏是什么意思?
信心我可以理解这是输出中第一条规则一起发生的次数C
和次数。B
? 那是对的吗
scala - Spark 中的并行 FP 增长
我试图了解 FPTree 类的“添加”和“提取”方法:(https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ mllib/fpm/FPGrowth.scala)。
- “摘要”变量的目的是什么?
- 组列表在哪里?我假设它是以下内容,我是否正确:
- 对于 {a,b,c} 、 {a,b} 、 {b,c} 的 3 个事务,所有频繁的“摘要”将包含什么?
python - 用于 FPGrowth 的 Pyspark 数据帧格式 -> 输入列必须是数组,但得到 bigint
在尝试将 XLSX 中的数据转换为 FPGrowth 的正确格式时,我在运行时遇到以下错误消息model = fpGrowth.fit(pivotDF)
:
IllegalArgumentException: requirement failed: The input column must be array, but got bigint.
我从 XLSX 文件中取出数据并将其读入 Pandas DataFrame,然后将其转换为 Spark Dataframe,进行一些清理和旋转以获得所需的表。
pivotDF.printSchema()
显示了这一点:
我的数据(pivotDF)如下所示:
有没有办法将它转换/转换为所需的数组类型列?
提前谢谢了
编辑:我的目标是这样的:
r - FP-Growth 无法处理
我在 Rstudio 上处理 fp-growth 算法时遇到问题这是我第一次使用 R
我写代码
然后系统会这样响应
dimnames (x) <- dn 中的错误:“dimnames”[2] 的长度不等于数组范围
请告诉我解决方案 对不起我的英语不好
python - 有没有办法在 pyspark 数组函数中放置多列?(FP成长准备)
我有一个带有疾病症状的 DataFrame,我想在整个 DataFrame 上运行 FP Growt。FP Growt 想要一个数组作为输入,它使用以下代码:
功能列表更长,如果我必须更改 df 的名称,我必须使用查找和替换。我知道我可以使用F.col("Gender")
而不是,df["Gender"]
但是有没有办法将所有列F.array()
一次放入其中并且能够排除其中的一些列df["Age"]
?或者,有没有其他有效的方法可以为我不知道的 FP Growt 准备分类特征?
r - 调用 rCBA::fpgrowth 时出错:方法 fpgrowth 带有签名 (DDI)[[Ljava/lang/String; 未找到
我写了下面的 R 代码来使用 FP-Growth 算法进行挖掘:
但我收到以下错误:
这些是我的数据: