问题标签 [fpgrowth]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
432 浏览

apache-spark - Pyspark FP 增长实现运行缓慢

我在 Spark v2.3 上使用关联规则挖掘的 pyspark.ml.fpm (FP Growth) 实现。

spark UI 显示作为结束的任务运行非常缓慢。这似乎是一个常见问题,可能与数据倾斜有关。

这是真正的原因吗?有什么解决办法吗?

我不想更改 minSupport 或 minConfidence 阈值,因为这会受到结果的影响。删除列也不是解决方案。

0 投票
1 回答
812 浏览

python - 在 Python 中使用 FP-Growth 算法来确定最频繁的模式

我使用 mlxtend.frequent_patterns fpgrowth 库在 python 中使用了 FP-Growth 算法。我遵循了他们页面中提到的代码,并且生成了我认为是递归的规则。我已经使用这些规则形成了一个数据框。现在我正在尝试使用循环计算支撑和提升,但这需要很多时间,我发现这效率低下。

我使用的代码如下:

有没有其他更简单的方法来使用 FPGrowth 计算支撑和提升?

0 投票
1 回答
608 浏览

python - 无法将 org 模块导入 PySpark 集群

我正在尝试从 org 模块导入 FPGrowth,但在安装 org 模块时会引发错误。我还尝试将 org.apache.spark 替换为 pyspark,仍然无法正常工作。

以下是错误:

0 投票
1 回答
395 浏览

python-3.x - 如何解释 Mlxtend 关联规则的结果

我正在使用mlxtend查找关联规则:

这是代码:

输出:

我给了一个min support=0.4. antecedentsupportconsequentsupport和有什么区别support

lift and leverage?如何判断它的好坏是什么意思?

信心我可以理解这是输出中第一条规则一起发生的次数C和次数。B? 那是对的吗

0 投票
1 回答
109 浏览

scala - Spark 中的并行 FP 增长

我试图了解 FPTree 类的“添加”和“提取”方法:(https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ mllib/fpm/FPGrowth.scala)。

  1. “摘要”变量的目的是什么?
  2. 组列表在哪里?我假设它是以下内容,我是否正确:
  1. 对于 {a,b,c} 、 {a,b} 、 {b,c} 的 3 个事务,所有频繁的“摘要”将包含什么?
0 投票
0 回答
66 浏览

python - 用于 FPGrowth 的 Pyspark 数据帧格式 -> 输入列必须是数组,但得到 bigint

在尝试将 XLSX 中的数据转换为 FPGrowth 的正确格式时,我在运行时遇到以下错误消息model = fpGrowth.fit(pivotDF)

IllegalArgumentException: requirement failed: The input column must be array, but got bigint.

我从 XLSX 文件中取出数据并将其读入 Pandas DataFrame,然后将其转换为 Spark Dataframe,进行一些清理和旋转以获得所需的表。

pivotDF.printSchema() 显示了这一点:

我的数据(pivotDF)如下所示:

有没有办法将它转换/转换为所需的数组类型列?

提前谢谢了

编辑:我的目标是这样的:

0 投票
1 回答
119 浏览

r - 如何在 sparklyr 包中运行 FPGrowth

我有数据“ li”,我想运行算法 FPGrowth,但我不知道如何

这里有一个类似的答案,但它不起作用,我得到了错误

/// plyr::mutate

/// SparkR::mutate

0 投票
0 回答
91 浏览

r - FP-Growth 无法处理

我在 Rstudio 上处理 fp-growth 算法时遇到问题这是我第一次使用 R

我写代码

然后系统会这样响应

dimnames (x) <- dn 中的错误:“dimnames”[2] 的长度不等于数组范围

请告诉我解决方案 对不起我的英语不好

这是我的数据交易

0 投票
1 回答
97 浏览

python - 有没有办法在 pyspark 数组函数中放置多列?(FP成长准备)

我有一个带有疾病症状的 DataFrame,我想在整个 DataFrame 上运行 FP Growt。FP Growt 想要一个数组作为输入,它使用以下代码:

功能列表更长,如果我必须更改 df 的名称,我必须使用查找和替换。我知道我可以使用F.col("Gender")而不是,df["Gender"]但是有没有办法将所有列F.array()一次放入其中并且能够排除其中的一些列df["Age"]?或者,有没有其他有效的方法可以为我不知道的 FP Growt 准备分类特征?

0 投票
1 回答
39 浏览

r - 调用 rCBA::fpgrowth 时出错:方法 fpgrowth 带有签名 (DDI)[[Ljava/lang/String; 未找到

我写了下面的 R 代码来使用 FP-Growth 算法进行挖掘:

但我收到以下错误:

这些是我的数据:

我使用的数据