问题标签 [apache-spark-mllib]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2209 问题

0 投票

5 回答

31960 浏览

apache-spark - PySpark 和 MLLib：随机森林特征的重要性

我正在尝试提取我使用 PySpark 训练的随机森林对象的特征重要性。但是，我在文档中的任何地方都没有看到这样做的示例，也不是 RandomForestModel 的方法。

如何从RandomForestModelPySpark 中的回归器或分类器中提取特征重要性？

这是文档中提供的示例代码，可帮助我们入门；但是，其中没有提及特征重要性。

我没有看到model.__featureImportances_可用的属性——我在哪里可以找到这个？

2015-03-10T19:01:44.427

0 投票

1 回答

2530 浏览

apache-spark - Apache Spark ALS 推荐评级值高于范围

我运行了一个小的 ALS 推荐系统程序，可以在Apache Spark 网站上找到它使用 MLlib。当使用评级为 1-5 的数据集（我使用过 MovieLens 数据集）时，它会给出预测评级超过 5 的推荐！

我在小型测试中发现的最高值是 7.4。显然，我要么误解了代码的用途，要么出现了问题。我研究了 Latent Factor Recommender Systems，并认为 Spark Mlib ALS 实现是基于这个。

为什么它会返回比可能更高的评级？这没有道理。

我误解了算法还是程序有缺陷？

apache-spark machine-learning apache-spark-mllib collaborative-filtering

2015-03-14T16:48:05.307

0 投票

1 回答

1053 浏览

apache-spark - Apache Spark ALS 推荐方法

尝试使用 Spark MLLib 的 ALS 构建推荐系统。

目前，我们正在尝试每天为所有用户预先构建推荐。我们正在使用简单的隐式反馈和 ALS。

问题是，我们有 20M 用户和 30M 产品，要调用 main predict() 方法，我们需要对用户和产品进行笛卡尔联接，这太大了，仅生成联接可能需要几天时间。有没有办法避免笛卡尔连接以加快处理速度？

目前我们有 8 个节点和 64Gb 的 RAM，我认为对于数据来说应该足够了。

apache-spark machine-learning bigdata recommendation-engine apache-spark-mllib

2015-03-18T10:42:08.997

0 投票

0 回答

312 浏览

java - apache spark中相似函数和RowMatrix的使用

我需要计算从 RowMatrix 计算的平均向量与同一 RowMatrix 内的所有向量之间的相似度。

为了计算平均向量，我正在这样做（Java 中的示例）：

如何将此向量添加到 RowMatrix“矩阵”中，以便我可以计算相似度，或者我应该以某种不同的方式进行操作？

java apache-spark similarity apache-spark-mllib

2015-03-19T08:45:33.090

0 投票

1 回答

717 浏览

eclipse - scala中的运行时错误：NoSuchMethodError

我正在尝试在 Eclipse 中使用 Scala 语言中的 Spark MLlib 算法。编译期间没有问题，运行时出现“NoSuchMethodError”错误。

这是我的代码#Copied

}

开发模型时出现错误，即

此行之前的打印语句完美地在控制台上打印值。

pom.Xml 中的依赖项是：

日食中的错误：

eclipse scala maven apache-spark apache-spark-mllib

2015-03-19T10:21:51.553

0 投票

1 回答

1417 浏览

apache-spark - Spark MLLib 与新用户的协同过滤

我正在尝试在 Spark 中实现的协作过滤算法，并遇到以下问题：

假设我用以下数据训练模型：

现在，如果我用以下数据测试它：

我从来没有看到用户“u3”的任何评分，大概是因为该用户没有出现在训练数据中。这是因为冷启动问题吗？我的印象是这个问题只适用于新产品。在这种情况下，我会期待对“u3”的预测，因为训练数据中的“u1”和“u2”具有与“u3”相似的评级信息。这是基于模型和基于内存的协同过滤之间的区别吗？

apache-spark apache-spark-mllib collaborative-filtering

2015-03-20T05:34:02.210

0 投票

1 回答

8609 浏览

java - 使用 Spark 并行化集合

我正在尝试使用 Spark 并行化集合，但文档中的示例似乎不起作用：

我正在LabeledPoint从每个包含数据点 ( double[]) 和标签（默认值：真/假）的记录中创建一个 s 列表。

parallelize 的函数签名不再采用一个参数，这是 spark-mllib_2.11 v1.3.0 中的样子：sc.parallelize(seq, numSlices, evidence$1)

那么关于如何让这个工作的任何想法？

java apache-spark machine-learning artificial-intelligence apache-spark-mllib

2015-03-21T07:18:55.857

0 投票

0 回答

236 浏览

azure - Spark MLlib 记录不推荐使用的属性

我遵循了数据块的培训。它在 Azure 上运行，并使用以下配置构建：

构建.sbt

它可以工作并提供建议。但是
1）控制台抱怨一些代码被弃用（见下面的日志中的左箭头）。我找不到有关此问题的一些信息。
2）此外，它多次警告我缺少参数：15/03/21 14:49:51 WARN recommendation.MatrixFactorizationModel: User factor does not have a partitioner. Prediction on individual records could be slow..

安慰

azure apache-spark apache-spark-mllib

2015-03-21T16:26:18.737

0 投票

1 回答

607 浏览

python - 在 pySpark 中保存回归模型

在 pySpark MLlib 中似乎无法保存和加载回归模型，例如 LogisticRegressionModel、SVMModel、NaiveBayesModel 和 DecisionTreeModel。通过 JavaSaveable 和 JavaLoader mixins 对推荐模型MatrixFactorizationModel进行加载和保存，但回归模型不是这样完成的。

有没有办法通过提供我自己的负载和保存程序来解决这个问题？如果是这样，我将如何处理？

这个功能是否会在未来的版本中出现，或者 pySpark MLlib 是否会被逐步淘汰？

python pyspark apache-spark-mllib

2015-03-22T03:55:55.610

0 投票

1 回答

1090 浏览

java - 无法将预测映射到 JavaRDD

我正在尝试将预测映射到 LinearRegression 模型，以便将它们传递到 BinaryClassificationMetrics 对象：

但是，当我调用时predictions.map(...)，出现以下编译错误：

关于如何映射预测 DataFrame 的数据的任何建议？

java apache-spark rdd apache-spark-mllib

2015-03-23T23:42:42.253

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-mllib]

Reference