问题标签 [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
31960 浏览

apache-spark - PySpark 和 MLLib:随机森林特征的重要性

我正在尝试提取我使用 PySpark 训练的随机森林对象的特征重要性。但是,我在文档中的任何地方都没有看到这样做的示例,也不是 RandomForestModel 的方法。

如何从RandomForestModelPySpark 中的回归器或分类器中提取特征重要性?

这是文档中提供的示例代码,可帮助我们入门;但是,其中没有提及特征重要性。

我没有看到model.__featureImportances_可用的属性——我在哪里可以找到这个?

0 投票
1 回答
2530 浏览

apache-spark - Apache Spark ALS 推荐评级值高于范围

我运行了一个小的 ALS 推荐系统程序,可以在Apache Spark 网站上找到它使用 MLlib。当使用评级为 1-5 的数据集(我使用过 MovieLens 数据集)时,它会给出预测评级超过 5 的推荐!

我在小型测试中发现的最高值是 7.4。显然,我要么误解了代码的用途,要么出现了问题。我研究了 Latent Factor Recommender Systems,并认为 Spark Mlib ALS 实现是基于这个

为什么它会返回比可能更高的评级?这没有道理。

我误解了算法还是程序有缺陷?

0 投票
1 回答
1053 浏览

apache-spark - Apache Spark ALS 推荐方法

尝试使用 Spark MLLib 的 ALS 构建推荐系统。

目前,我们正在尝试每天为所有用户预先构建推荐。我们正在使用简单的隐式反馈和 ALS。

问题是,我们有 20M 用户和 30M 产品,要调用 main predict() 方法,我们需要对用户和产品进行笛卡尔联接,这太大了,仅生成联接可能需要几天时间。有没有办法避免笛卡尔连接以加快处理速度?

目前我们有 8 个节点和 64Gb 的 RAM,我认为对于数据来说应该足够了。

0 投票
0 回答
312 浏览

java - apache spark中相似函数和RowMatrix的使用

我需要计算从 RowMatrix 计算的平均向量与同一 RowMatrix 内的所有向量之间的相似度。

为了计算平均向量,我正在这样做(Java 中的示例):

如何将此向量添加到 RowMatrix“矩阵”中,以便我可以计算相似度,或者我应该以某种不同的方式进行操作?

0 投票
1 回答
717 浏览

eclipse - scala中的运行时错误:NoSuchMethodError

我正在尝试在 Eclipse 中使用 Scala 语言中的 Spark MLlib 算法。编译期间没有问题,运行时出现“NoSuchMethodError”错误。

这是我的代码#Copied

}

开发模型时出现错误,即

此行之前的打印语句完美地在控制台上打印值。

pom.Xml 中的依赖项是:

日食中的错误:

0 投票
1 回答
1417 浏览

apache-spark - Spark MLLib 与新用户的协同过滤

我正在尝试在 Spark 中实现的协作过滤算法,并遇到以下问题:

假设我用以下数据训练模型:

现在,如果我用以下数据测试它:

我从来没有看到用户“u3”的任何评分,大概是因为该用户没有出现在训练数据中。这是因为冷启动问题吗?我的印象是这个问题只适用于新产品。在这种情况下,我会期待对“u3”的预测,因为训练数据中的“u1”和“u2”具有与“u3”相似的评级信息。这是基于模型和基于内存的协同过滤之间的区别吗?

0 投票
1 回答
8609 浏览

java - 使用 Spark 并行化集合

我正在尝试使用 Spark 并行化集合,但文档中的示例似乎不起作用:

我正在LabeledPoint从每个包含数据点 ( double[]) 和标签(默认值:真/假)的记录中创建一个 s 列表。

parallelize 的函数签名不再采用一个参数,这是 spark-mllib_2.11 v1.3.0 中的样子:sc.parallelize(seq, numSlices, evidence$1)

那么关于如何让这个工作的任何想法?

0 投票
0 回答
236 浏览

azure - Spark MLlib 记录不推荐使用的属性

我遵循了数据块的培训。它在 Azure 上运行,并使用以下配置构建:

构建.sbt

它可以工作并提供建议。但是
1)控制台抱怨一些代码被弃用(见下面的日志中的左箭头)。我找不到有关此问题的一些信息。
2)此外,它多次警告我缺少参数:15/03/21 14:49:51 WARN recommendation.MatrixFactorizationModel: User factor does not have a partitioner. Prediction on individual records could be slow..

安慰

0 投票
1 回答
607 浏览

python - 在 pySpark 中保存回归模型

在 pySpark MLlib 中似乎无法保存和加载回归模型,例如 LogisticRegressionModel、SVMModel、NaiveBayesModel 和 DecisionTreeModel。通过 JavaSaveable 和 JavaLoader mixins 对推荐模型MatrixFactorizationModel进行加载和保存,但回归模型不是这样完成的。

有没有办法通过提供我自己的负载和保存程序来解决这个问题?如果是这样,我将如何处理?

这个功能是否会在未来的版本中出现,或者 pySpark MLlib 是否会被逐步淘汰?

0 投票
1 回答
1090 浏览

java - 无法将预测映射到 JavaRDD

我正在尝试将预测映射到 LinearRegression 模型,以便将它们传递到 BinaryClassificationMetrics 对象:

但是,当我调用 时predictions.map(...),出现以下编译错误:

关于如何映射预测 DataFrame 的数据的任何建议?