我正在尝试使用 Apache-Spark 的 MLlib 库运行 Java 测试程序。
我从他们的网站下载了最新的 Spark 版本,并按照 O'reilly 的书“Learning Spark,Lightning-Fast Big Data Analysis”找到了有用的示例和技巧,但是在导入正确的库时,他们(以及其他教程我发现谷歌搜索)使用不包含在我下载的 Spark 文件夹中的类。
这是一个例子:
大多数教程导入 org.apache.spark.mllib.regression.LabeledPoint,在我的例子中不存在。我只有 :
- JavaLassoSuite
- Java线性回归套件
- JavaRidgeRegressionSuite
对于应该包含在库中的所有其他文件,我都有同样的问题。我尝试下载旧版本,但它仍然是相同的,即使是与 MLlib 不直接相关的文件(org.apache.spark.SparkConf 和 org.apache.spark.api.java.* 文件)
我错过了一步,还是有人知道?
谢谢 !
编辑
本书第一个示例所需的导入:
import org.apache.spark.mllib.classification.LogisticRegressionModel;
import org.apache.spark.mllib.classification.LogisticRegressionWithSGD;
import org.apache.spark.mllib.feature.HashingTF;
import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.regression.LabeledPoint;
我从这个链接下载:
火花发布:1.2.1
包类型:源代码
下载类型:直接下载
(这是我在 Stack Overflow 上的第一篇文章,如果我做错了,请随时告诉我)