问题标签 [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1372 浏览

scala - 高斯混合模型 (GMM) mllib Apache Spark Scala

我认为 mllib 中还没有高斯混合模型。我想知道在其他地方是否有任何好的 GMM(适用于大数据)的 Scala/Java 实现。请告诉我。

谢谢并恭祝安康,

0 投票
1 回答
356 浏览

intellij-idea - mllib 1.1.0 中的 NoClassDefError

我正在尝试运行 twitter 分类器 - https://github.com/databricks/reference-apps。它使用 Spark 分析这些提要。我已经在 IntelliJ 上加载了项目,并且出现在外部库中的依赖项org.apache.spark.mllib之一无法正常工作。

IntelliJ IDEA 中的依赖

我在运行它时得到一个 java.lang.NoClassDefFoundError 。但是依赖性已经存在。

我的build.sbt看起来像这样:

0 投票
2 回答
4727 浏览

apache-spark - ALS模型的增量训练

我试图找出是否可以在 Apache Spark 中使用 MLlib 对数据进行“增量训练”。

我的平台是 Prediction IO,它基本上是 Spark (MLlib)、HBase、ElasticSearch 和其他一些 Restful 部分的包装器。

在我的应用程序数据中,“事件”是实时插入的,但要获得更新的预测结果,我需要“pio train”和“pio deploy”。这需要一些时间,并且服务器在重新部署期间会脱机。

我试图弄清楚我是否可以在“预测”阶段进行增量训练,但找不到答案。

0 投票
1 回答
1038 浏览

scala - 使用 Apache Spark 和 mllib 生成关键字

我写了这样的代码:

如何从每个文章列表项的“率”RDD 中获取前 5 个关键字?

添加:

文章列表包含对象:

words 包含文章中的所有单词。

我不了解速率的结构,在文档中说:

0 投票
4 回答
5562 浏览

apache-spark - 如果用户 ID 是字符串而不是连续整数,如何使用 mllib.recommendation?

我想使用 Spark 的mllib.recommendation库来构建一个原型推荐系统。但是,我拥有的用户数据的格式是以下格式:

如果我想使用该mllib.recommendation库,根据Rating类的 API,用户 ID 必须是整数(还必须是连续的?)

看起来必须在真实用户 ID 和 Spark 使用的数字用户 ID 之间进行某种转换。但是我该怎么做呢?

0 投票
0 回答
700 浏览

scala - 如何在普通的 Apache Spark 矩阵上执行 SVD?

试图弄清楚如何在 Apache Spark 矩阵上执行进一步的操作。我创建了一个简单的RowMatrix,然后我从中创建了一个协方差矩阵。但是查看示例/文档不确定下一步该做什么。到目前为止,这是我的代码:

我希望做的是如下简单的事情(伪代码):

感谢任何可以在这里提供帮助的人:)

0 投票
1 回答
10580 浏览

apache-spark - 如何将 org.apache.spark.rdd.RDD[Array[Double]] 转换为 Spark MLlib 所需的 Array[Double]

我正在尝试实施KMeans using Apache Spark.

我收到以下错误:

所以我尝试将 Array[Double] 转换为 Vector,如下所示

我收到以下错误:

所以我推断这org.apache.spark.rdd.RDD[Array[Double]]与 Array[Double] 不一样

我该如何处理我的数据org.apache.spark.rdd.RDD[Array[Double]]?或者我该如何转换org.apache.spark.rdd.RDD[Array[Double]] to Array[Double]

0 投票
1 回答
581 浏览

scala - Spark/MLlib:添加特征平方来训练非线性模型

最近我要准备一些实验材料,让学生使用 Spark/MLlib/Scala 学习机器学习。我熟悉机器学习,但对 Spark 不熟悉。

机器学习的一个“教科书”技巧是添加原始特征的更高阶项以允许非线性模型。假设,在我从 LIBSVM 文件加载训练数据后,我想添加除原始特征之外的所有特征的平方。我目前有限的知识产生以下实现:

不知何故,我觉得这个实现太“重量级”了,看起来不是正确的方法。任何人都可以对这个问题有所了解吗?

0 投票
1 回答
810 浏览

apache-spark - 如何并行拟合 Spark 的分类器?

伙计们,我有一个奇怪的问题......

我正在尝试像这样训练多类 SVM 分类器:

但是当我试图collect() jp - 我有这个错误:

为什么我会出现 NullPointer?我检查了几次,我的

不为空。也许它不能在工人身上并行训练分类器?

谢谢你。

0 投票
3 回答
972 浏览

apache-spark - MLlib 协同过滤生成 Top N 推荐

我一直在寻找一种方法来使用 MLlib 的 ALS 矩阵分解为所有用户生成前 n 条建议,但仍然没有成功。谁能告诉我这种方法存在吗?