问题标签 [fpgrowth]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

52 问题

0 投票

1 回答

432 浏览

apache-spark - Pyspark FP 增长实现运行缓慢

我在 Spark v2.3 上使用关联规则挖掘的 pyspark.ml.fpm (FP Growth) 实现。

spark UI 显示作为结束的任务运行非常缓慢。这似乎是一个常见问题，可能与数据倾斜有关。

这是真正的原因吗？有什么解决办法吗？

我不想更改 minSupport 或 minConfidence 阈值，因为这会受到结果的影响。删除列也不是解决方案。

2020-02-09T12:52:09.080

0 投票

1 回答

812 浏览

python - 在 Python 中使用 FP-Growth 算法来确定最频繁的模式

我使用 mlxtend.frequent_patterns fpgrowth 库在 python 中使用了 FP-Growth 算法。我遵循了他们页面中提到的代码，并且生成了我认为是递归的规则。我已经使用这些规则形成了一个数据框。现在我正在尝试使用循环计算支撑和提升，但这需要很多时间，我发现这效率低下。

我使用的代码如下：

有没有其他更简单的方法来使用 FPGrowth 计算支撑和提升？

python machine-learning data-science recommendation-engine fpgrowth

2020-06-01T13:30:52.853

0 投票

1 回答

608 浏览

python - 无法将 org 模块导入 PySpark 集群

我正在尝试从 org 模块导入 FPGrowth，但在安装 org 模块时会引发错误。我还尝试将 org.apache.spark 替换为 pyspark，仍然无法正常工作。

以下是错误：

python apache-spark pyspark google-cloud-dataproc fpgrowth

2020-06-01T20:41:07.603

0 投票

1 回答

395 浏览

python-3.x - 如何解释 Mlxtend 关联规则的结果

我正在使用mlxtend查找关联规则：

这是代码：

输出：

我给了一个min support=0.4. antecedentsupport和consequentsupport和有什么区别support？

lift and leverage?如何判断它的好坏是什么意思？

信心我可以理解这是输出中第一条规则一起发生的次数C和次数。B? 那是对的吗

python-3.x mlxtend fpgrowth

2020-06-18T19:00:38.077

0 投票

1 回答

109 浏览

scala - Spark 中的并行 FP 增长

我试图了解 FPTree 类的“添加”和“提取”方法：（https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ mllib/fpm/FPGrowth.scala）。

“摘要”变量的目的是什么？
组列表在哪里？我假设它是以下内容，我是否正确：

对于 {a,b,c} 、 {a,b} 、 {b,c} 的 3 个事务，所有频繁的“摘要”将包含什么？

scala apache-spark fpgrowth

2020-07-30T13:09:22.087

0 投票

0 回答

66 浏览

python - 用于 FPGrowth 的 Pyspark 数据帧格式 -> 输入列必须是数组，但得到 bigint

在尝试将 XLSX 中的数据转换为 FPGrowth 的正确格式时，我在运行时遇到以下错误消息model = fpGrowth.fit(pivotDF)：

IllegalArgumentException: requirement failed: The input column must be array, but got bigint.

我从 XLSX 文件中取出数据并将其读入 Pandas DataFrame，然后将其转换为 Spark Dataframe，进行一些清理和旋转以获得所需的表。

pivotDF.printSchema() 显示了这一点：

我的数据（pivotDF）如下所示：

有没有办法将它转换/转换为所需的数组类型列？

提前谢谢了

编辑：我的目标是这样的：

python apache-spark pyspark google-colaboratory fpgrowth

2020-08-25T11:20:37.280

0 投票

1 回答

119 浏览

r - 如何在 sparklyr 包中运行 FPGrowth

我有数据“ li”，我想运行算法 FPGrowth，但我不知道如何

这里有一个类似的答案，但它不起作用，我得到了错误

/// plyr::mutate

/// SparkR::mutate

r sparklyr fpgrowth

2021-01-20T15:26:12.063

0 投票

0 回答

91 浏览

r - FP-Growth 无法处理

我在 Rstudio 上处理 fp-growth 算法时遇到问题这是我第一次使用 R

我写代码

然后系统会这样响应

dimnames (x) <- dn 中的错误：“dimnames”[2] 的长度不等于数组范围

请告诉我解决方案 对不起我的英语不好

这是我的数据交易

r fpgrowth

2021-01-30T09:50:43.290

0 投票

1 回答

97 浏览

python - 有没有办法在 pyspark 数组函数中放置多列？（FP成长准备）

我有一个带有疾病症状的 DataFrame，我想在整个 DataFrame 上运行 FP Growt。FP Growt 想要一个数组作为输入，它使用以下代码：

功能列表更长，如果我必须更改 df 的名称，我必须使用查找和替换。我知道我可以使用F.col("Gender")而不是，df["Gender"]但是有没有办法将所有列F.array()一次放入其中并且能够排除其中的一些列df["Age"]？或者，有没有其他有效的方法可以为我不知道的 FP Growt 准备分类特征？

python apache-spark pyspark apache-spark-ml fpgrowth

2021-02-01T22:06:04.107

0 投票

1 回答

39 浏览

r - 调用 rCBA::fpgrowth 时出错：方法 fpgrowth 带有签名 (DDI)[[Ljava/lang/String; 未找到

我写了下面的 R 代码来使用 FP-Growth 算法进行挖掘：

但我收到以下错误：

这些是我的数据：

我使用的数据

r data-mining fpgrowth

2021-02-04T13:35:24.217

1 2 3 4 5 6 7 8 9 10

问题标签 [fpgrowth]

Reference