1

我对 spark 完全陌生,我想以编程方式从标记点创建 JavaRDD,而无需从文件中读取输入。假设我创建了几个 Labeledpoints,如下所示,

 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0));
 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 5.0, 3.0));
 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0));
 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 7.0, 3.0));

然后我想使用这些向量创建一个 JavaRDD。我怎样才能做到这一点。

4

1 回答 1

5

查看Apache spark 文档的这一部分。您可以使用并行化功能来创建 rdd。

List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
JavaRDD<Integer> distData = sc.parallelize(data);
于 2016-02-21T04:50:19.730 回答