-2

我正在尝试使用 Apache-Spark 的 MLlib 库运行 Java 测试程序。

我从他们的网站下载了最新的 Spark 版本,并按照 O'reilly 的书“Learning Spark,Lightning-Fast Big Data Analysis”找到了有用的示例和技巧,但是在导入正确的库时,他们(以及其他教程我发现谷歌搜索)使用不包含在我下载的 Spark 文件夹中的类。

这是一个例子:

大多数教程导入 org.apache.spark.mllib.regression.LabeledPoint,在我的例子中不存在。我只有 :

  • JavaLassoSuite
  • Java线性回归套件
  • JavaRidgeRegressionSuite

对于应该包含在库中的所有其他文件,我都有同样的问题。我尝试下载旧版本,但它仍然是相同的,即使是与 MLlib 不直接相关的文件(org.apache.spark.SparkConf 和 org.apache.spark.api.java.* 文件)

我错过了一步,还是有人知道?

谢谢 !

编辑

本书第一个示例所需的导入:

import org.apache.spark.mllib.classification.LogisticRegressionModel;
import org.apache.spark.mllib.classification.LogisticRegressionWithSGD;
import org.apache.spark.mllib.feature.HashingTF;
import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.regression.LabeledPoint;

我从这个链接下载:

火花发布:1.2.1

包类型:源代码

下载类型:直接下载

(这是我在 Stack Overflow 上的第一篇文章,如果我做错了,请随时告诉我)

4

2 回答 2

2

也许这会对你有所帮助!

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-mllib_2.10</artifactId>
    <version>1.3.0</version>
</dependency>
于 2015-04-27T23:35:38.463 回答
1

为了得到你想要的jar,你必须用maven编译你下载的源码(如果你不熟悉这个工具,我建议你下载一个预编译的版本)。

构建完成后,您会在 .jar 中找到您想要的 jar yourSparkFolder/spark-1.2.1/mllib/target

请注意,这只会解决这个特定问题。Spark mlibs 具有此处列出的各种依赖项。个人而言,我通过在我的 spark 项目中使用 maven 来管理这些(您可以在此处找到所需的依赖项)。

于 2015-02-24T10:30:07.703 回答