1

我已经浏览了有关在 pyspark 中安装 GMM的链接https://spark.apache.org/docs/latest/mllib-clustering.html 。我已经在python中成功进行了同样的操作,但是经过多次迭代,我无法在pyspark中运行。

我的问题如下;1. 上面提到的链接和我检查的在 pyspark 中拟合 GMM 的另一个示例,采用没有列标题的 txt 文件。我有一个 17 列的 csv。代码是,

data = sc.textFile("..path/mydata.csv")
parsedData = data.map(lambda line: array([float(x) for x in line.strip().split(' ')]))

这行得通,但是当我尝试GaussianMixture.train指定某些组件时,它不起作用。

  1. 如果示例中使用的数据没有列标题,我如何判断哪一列来自哪个分布以及模式变化是如何出现的?

  2. 我如何从这里获取热图,以便每当有新数据进入时,我将使用我训练过的模型的热图来判断我的新测试数据的分布模式并指出不匹配的地方。

谢谢。

4

0 回答 0