问题标签 [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - PySpark 和 MLLib:随机森林特征的重要性
我正在尝试提取我使用 PySpark 训练的随机森林对象的特征重要性。但是,我在文档中的任何地方都没有看到这样做的示例,也不是 RandomForestModel 的方法。
如何从RandomForestModel
PySpark 中的回归器或分类器中提取特征重要性?
这是文档中提供的示例代码,可帮助我们入门;但是,其中没有提及特征重要性。
我没有看到model.__featureImportances_
可用的属性——我在哪里可以找到这个?
apache-spark - Apache Spark ALS 推荐评级值高于范围
我运行了一个小的 ALS 推荐系统程序,可以在Apache Spark 网站上找到它使用 MLlib。当使用评级为 1-5 的数据集(我使用过 MovieLens 数据集)时,它会给出预测评级超过 5 的推荐!
我在小型测试中发现的最高值是 7.4。显然,我要么误解了代码的用途,要么出现了问题。我研究了 Latent Factor Recommender Systems,并认为 Spark Mlib ALS 实现是基于这个。
为什么它会返回比可能更高的评级?这没有道理。
我误解了算法还是程序有缺陷?
apache-spark - Apache Spark ALS 推荐方法
尝试使用 Spark MLLib 的 ALS 构建推荐系统。
目前,我们正在尝试每天为所有用户预先构建推荐。我们正在使用简单的隐式反馈和 ALS。
问题是,我们有 20M 用户和 30M 产品,要调用 main predict() 方法,我们需要对用户和产品进行笛卡尔联接,这太大了,仅生成联接可能需要几天时间。有没有办法避免笛卡尔连接以加快处理速度?
目前我们有 8 个节点和 64Gb 的 RAM,我认为对于数据来说应该足够了。
java - apache spark中相似函数和RowMatrix的使用
我需要计算从 RowMatrix 计算的平均向量与同一 RowMatrix 内的所有向量之间的相似度。
为了计算平均向量,我正在这样做(Java 中的示例):
如何将此向量添加到 RowMatrix“矩阵”中,以便我可以计算相似度,或者我应该以某种不同的方式进行操作?
eclipse - scala中的运行时错误:NoSuchMethodError
我正在尝试在 Eclipse 中使用 Scala 语言中的 Spark MLlib 算法。编译期间没有问题,运行时出现“NoSuchMethodError”错误。
这是我的代码#Copied
}
开发模型时出现错误,即
此行之前的打印语句完美地在控制台上打印值。
pom.Xml 中的依赖项是:
日食中的错误:
apache-spark - Spark MLLib 与新用户的协同过滤
我正在尝试在 Spark 中实现的协作过滤算法,并遇到以下问题:
假设我用以下数据训练模型:
现在,如果我用以下数据测试它:
我从来没有看到用户“u3”的任何评分,大概是因为该用户没有出现在训练数据中。这是因为冷启动问题吗?我的印象是这个问题只适用于新产品。在这种情况下,我会期待对“u3”的预测,因为训练数据中的“u1”和“u2”具有与“u3”相似的评级信息。这是基于模型和基于内存的协同过滤之间的区别吗?
java - 使用 Spark 并行化集合
我正在尝试使用 Spark 并行化集合,但文档中的示例似乎不起作用:
我正在LabeledPoint
从每个包含数据点 ( double[]
) 和标签(默认值:真/假)的记录中创建一个 s 列表。
parallelize 的函数签名不再采用一个参数,这是 spark-mllib_2.11 v1.3.0 中的样子:sc.parallelize(seq, numSlices, evidence$1)
那么关于如何让这个工作的任何想法?
azure - Spark MLlib 记录不推荐使用的属性
我遵循了数据块的培训。它在 Azure 上运行,并使用以下配置构建:
构建.sbt
它可以工作并提供建议。但是
1)控制台抱怨一些代码被弃用(见下面的日志中的左箭头)。我找不到有关此问题的一些信息。
2)此外,它多次警告我缺少参数:15/03/21 14:49:51 WARN recommendation.MatrixFactorizationModel: User factor does
not have a partitioner. Prediction on individual records could be slow.
.
安慰
python - 在 pySpark 中保存回归模型
在 pySpark MLlib 中似乎无法保存和加载回归模型,例如 LogisticRegressionModel、SVMModel、NaiveBayesModel 和 DecisionTreeModel。通过 JavaSaveable 和 JavaLoader mixins 对推荐模型MatrixFactorizationModel进行加载和保存,但回归模型不是这样完成的。
有没有办法通过提供我自己的负载和保存程序来解决这个问题?如果是这样,我将如何处理?
这个功能是否会在未来的版本中出现,或者 pySpark MLlib 是否会被逐步淘汰?
java - 无法将预测映射到 JavaRDD
我正在尝试将预测映射到 LinearRegression 模型,以便将它们传递到 BinaryClassificationMetrics 对象:
但是,当我调用 时predictions.map(...)
,出现以下编译错误:
关于如何映射预测 DataFrame 的数据的任何建议?