pyspark - pyspark中的高斯混合模型

翻译自：https://stackoverflow.com/questions/43000855 2017-03-24T13:32:09.343

602 次

我已经浏览了有关在 pyspark 中安装 GMM的链接https://spark.apache.org/docs/latest/mllib-clustering.html 。我已经在python中成功进行了同样的操作，但是经过多次迭代，我无法在pyspark中运行。

我的问题如下；1. 上面提到的链接和我检查的在 pyspark 中拟合 GMM 的另一个示例，采用没有列标题的 txt 文件。我有一个 17 列的 csv。代码是，

data = sc.textFile("..path/mydata.csv")
parsedData = data.map(lambda line: array([float(x) for x in line.strip().split(' ')]))

这行得通，但是当我尝试GaussianMixture.train指定某些组件时，它不起作用。

谢谢。

0 回答 0