我如何误用/误读 Pyspark 中 FPGrowth 算法的使用,我有一个 Apriori 算法输出,我希望是一样的。提供的是我的 FPGrowth 代码、我的 Apriori 输出和我的 FPGrowth 输出。
from pyspark.mllib.fpm import FPGrowth
from pyspark import SparkConf
from pyspark.context import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))
data = sc.textFile("C:\\Users\\marka\\Downloads\\Assig2.txt")
data.map(lambda line: line.strip().split())
transactions = data.map(lambda line: line.strip().split('\t'))
#notempty = transactions.map(lambda x: x is not '')
unique = transactions.map(lambda x: list(set(x))).cache()
model = FPGrowth.train(unique, minSupport=0.7, numPartitions=10)
result = model.freqItemsets().collect()
for fi in result:
print(fi)
FP增长输出:
我是误解了结果还是有另一种方法可以输出 FPGrowth 以便能够像 Apriori 一样解释结果?
为了进行测试,我将 Weka 用于 FPGrowth 并得到类似于 Apriori 的结果,因此表明我的 Pyspark 输出方法不正确,但文档中的结果始终是 fi:print(fi),所以我不确定如何。