问题标签 [apache-spark-mllib]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2209 问题

0 投票

2 回答

1372 浏览

scala - 高斯混合模型 (GMM) mllib Apache Spark Scala

我认为 mllib 中还没有高斯混合模型。我想知道在其他地方是否有任何好的 GMM（适用于大数据）的 Scala/Java 实现。请告诉我。

谢谢并恭祝安康，

scala apache-spark gaussian apache-spark-mllib mixture-model

2014-12-21T23:07:28.573

0 投票

1 回答

356 浏览

intellij-idea - mllib 1.1.0 中的 NoClassDefError

我正在尝试运行 twitter 分类器 - https://github.com/databricks/reference-apps。它使用 Spark 分析这些提要。我已经在 IntelliJ 上加载了项目，并且出现在外部库中的依赖项org.apache.spark.mllib之一无法正常工作。

IntelliJ IDEA 中的依赖

我在运行它时得到一个 java.lang.NoClassDefFoundError 。但是依赖性已经存在。

我的build.sbt看起来像这样：

intellij-idea apache-spark apache-spark-mllib

2014-12-22T08:46:06.573

0 投票

2 回答

4727 浏览

apache-spark - ALS模型的增量训练

我试图找出是否可以在 Apache Spark 中使用 MLlib 对数据进行“增量训练”。

我的平台是 Prediction IO，它基本上是 Spark (MLlib)、HBase、ElasticSearch 和其他一些 Restful 部分的包装器。

在我的应用程序数据中，“事件”是实时插入的，但要获得更新的预测结果，我需要“pio train”和“pio deploy”。这需要一些时间，并且服务器在重新部署期间会脱机。

我试图弄清楚我是否可以在“预测”阶段进行增量训练，但找不到答案。

apache-spark machine-learning prediction apache-spark-mllib predictionio

2015-01-01T20:21:14.160

0 投票

1 回答

1038 浏览

scala - 使用 Apache Spark 和 mllib 生成关键字

我写了这样的代码：

如何从每个文章列表项的“率”RDD 中获取前 5 个关键字？

添加：

文章列表包含对象：

words 包含文章中的所有单词。

我不了解速率的结构，在文档中说：

scala apache-spark apache-spark-mllib tf-idf keyword-search

2015-01-04T09:34:20.547

0 投票

4 回答

5562 浏览

apache-spark - 如果用户 ID 是字符串而不是连续整数，如何使用 mllib.recommendation？

我想使用 Spark 的mllib.recommendation库来构建一个原型推荐系统。但是，我拥有的用户数据的格式是以下格式：

如果我想使用该mllib.recommendation库，根据Rating类的 API，用户 ID 必须是整数（还必须是连续的？）

看起来必须在真实用户 ID 和 Spark 使用的数字用户 ID 之间进行某种转换。但是我该怎么做呢？

apache-spark recommendation-engine apache-spark-mllib

2015-01-05T02:46:44.840

0 投票

0 回答

700 浏览

scala - 如何在普通的 Apache Spark 矩阵上执行 SVD？

试图弄清楚如何在 Apache Spark 矩阵上执行进一步的操作。我创建了一个简单的RowMatrix，然后我从中创建了一个协方差矩阵。但是查看示例/文档不确定下一步该做什么。到目前为止，这是我的代码：

我希望做的是如下简单的事情（伪代码）：

感谢任何可以在这里提供帮助的人:)

scala matrix apache-spark apache-spark-mllib

2015-01-07T23:05:04.470

0 投票

1 回答

10580 浏览

apache-spark - 如何将 org.apache.spark.rdd.RDD[Array[Double]] 转换为 Spark MLlib 所需的 Array[Double]

我正在尝试实施KMeans using Apache Spark.

我收到以下错误：

所以我尝试将 Array[Double] 转换为 Vector，如下所示

我收到以下错误：

所以我推断这org.apache.spark.rdd.RDD[Array[Double]]与 Array[Double] 不一样

我该如何处理我的数据org.apache.spark.rdd.RDD[Array[Double]]？或者我该如何转换org.apache.spark.rdd.RDD[Array[Double]] to Array[Double]？

apache-spark apache-spark-mllib

2015-01-08T06:29:32.973

0 投票

1 回答

581 浏览

scala - Spark/MLlib：添加特征平方来训练非线性模型

最近我要准备一些实验材料，让学生使用 Spark/MLlib/Scala 学习机器学习。我熟悉机器学习，但对 Spark 不熟悉。

机器学习的一个“教科书”技巧是添加原始特征的更高阶项以允许非线性模型。假设，在我从 LIBSVM 文件加载训练数据后，我想添加除原始特征之外的所有特征的平方。我目前有限的知识产生以下实现：

不知何故，我觉得这个实现太“重量级”了，看起来不是正确的方法。任何人都可以对这个问题有所了解吗？

scala apache-spark apache-spark-mllib

2015-01-09T11:24:06.447

0 投票

1 回答

810 浏览

apache-spark - 如何并行拟合 Spark 的分类器？

伙计们，我有一个奇怪的问题......

我正在尝试像这样训练多类 SVM 分类器：

但是当我试图collect() jp - 我有这个错误：

为什么我会出现 NullPointer？我检查了几次，我的

和

不为空。也许它不能在工人身上并行训练分类器？

谢谢你。

apache-spark java-8 apache-spark-mllib

2015-01-16T17:17:54.393

0 投票

3 回答

972 浏览

apache-spark - MLlib 协同过滤生成 Top N 推荐

我一直在寻找一种方法来使用 MLlib 的 ALS 矩阵分解为所有用户生成前 n 条建议，但仍然没有成功。谁能告诉我这种方法存在吗？

apache-spark recommendation-engine apache-spark-mllib collaborative-filtering matrix-factorization

2015-01-19T05:07:49.680

1 2 3 4 5 6 7 8 9 10