0

我是 Apacha Spark 和 MLlib 的新手。除了一件事之外,我对使用库(MLlib)有了相当的了解。我不明白如何为各种算法准备输入数据文件。请帮忙。谢谢。

4

1 回答 1

0

如果您查看 MLlib 页面上提供的示例,您将能够找到一个详细说明输入数据创建的示例。要提供指针,假设您的存储中有一个文本 csv 文件,其中最后一行是标签。然后下面的代码将为您制作一个标记点​​ RDD,可以将其提交给 MLlib 算法。

val inputData = trainTextData.map { lines =>
      val parts = lines.split(",")
      LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray))
    }.cache

您可以编写地图以使用相同的方式从您的输入创建数据。不过,这在很大程度上取决于您的数据。

于 2015-02-05T12:58:36.630 回答