问题标签 [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
8335 浏览

scala - 出于机器学习目的使用“randomSplit”在 Scala 中理解拆分数据的问题

嗨,我是 MLlib 的新手,我正在阅读 Spark 网站上有关它的文档。我很难理解为什么在下面的代码中我们需要缓存“0”用于训练和“1”用于测试:

谁能帮我理解原因?据我所知,我们需要正负样本,所以“1”可以是正的,“0”可以是负的,为什么要这样划分?

谢谢!

0 投票
1 回答
915 浏览

scala - 为什么从 Spark 1.0.1 开始出现 KMeansModel.predict 错误?

我使用Scala(2.10.4 版本)并且Spark- 我已移至Spark1.0.1。版本并注意到我的一个脚本现在无法正常工作。MLlib它以下列方式使用库中的k-means 方法。

假设我有一个KMeansModel名为clusters

这是我有问题的方法以及我在尝试编译它时收到的错误:

KMeansModel文档清楚地表明该predict函数需要一个Array[Double]类型的参数,我想我确实(不是吗?)给它一个这种类型的参数。预先感谢您对我做错了什么提出任何建议。

0 投票
1 回答
786 浏览

apache-spark - 为推荐引擎建模隐式和显式行为数据

我一直在关注用户行为数据,1. 喜欢 2. 不喜欢 3. 评分 4. 浏览过的产品 5. 购买过的产品

spark MLlib 支持置信度为 0 或 1 的隐式行为数据,参考 ( http://spark.apache.org/docs/latest/mllib-collaborative-filtering.html )。

例如,用户 1 查看了产品 A,那么模型将类似于

1,A,1(userId、productId、二进制置信度)

但是通过观察行为的性质,被喜欢的产品比被观看的产品更有信心。购买的产品比查看的产品更有信心。

如何根据行为类型对数据进行建模?

0 投票
1 回答
352 浏览

scala - REPL returns RDD values but SBT won't compile

When running the below method from a fresh spark shell REPL session everything works fine. However when I try to compile the class containing this method I get the following errors

In both cases I'm using Spark 1.0.1 The code itself is as follows.

It is taken from the MLLib tutorial (Adapted slightly) , no idea whats going wrong.

0 投票
3 回答
13664 浏览

scala - 如何使用 Scala 运行具有分类特征集的 Spark 决策树?

我有一个具有相应 categoricalFeaturesInfo 的功能集:Map [Int,Int]。但是,对于我的生活,我无法弄清楚我应该如何让 DecisionTree 类工作。它不会接受任何东西,而是接受 LabeledPoint 作为数据。但是,LabeledPoint 需要 (double, vector) ,其中向量需要双精度值。

我得到的错误:

到目前为止我的资源: 树配置、 决策树、 标记点

0 投票
0 回答
4024 浏览

java - Spark:无法加载本机 gpl 库

尝试运行一个非常简单的 spark 作业(在 mllib 中使用带有 SGD 的逻辑回归)时出现以下错误:

这是我用来提交作业的命令:

实际的java命令是:

似乎-Djava.library.path没有设置。我还尝试了上面的 java 命令并将本机 lib 目录提供给java.library.path,但仍然遇到相同的错误。这是本机 lib 目录的内容:

知道出了什么问题吗?谢谢。

0 投票
1 回答
2525 浏览

scala - Apache Spark - MLlib - K-Means 输入格式

我想执行一个 K-Means 任务并且在我得到我的结果指标之前未能训练模型并被踢出 Sparks scala shell。我不确定输入格式是问题还是其他问题。我使用 Spark 1.0.0,我的输入纺织品(400MB)如下所示:

我不确定是否可以使用前两个,因为在 MLlib 示例文件中只使用浮点数。所以我也尝试了最后两个:

我在这两种情况下的错误代码都在这里:

我错过了什么?

0 投票
1 回答
187 浏览

apache-spark - MLlib:java.lang.UnknownError:没有找到连续变量的 bin

我正在使用决策树算法,但出现以下错误。我有超过 500 个功能。那是问题吗?任何帮助都会很棒!

0 投票
1 回答
899 浏览

apache-spark - 在 Java 中使用 Spark MLlib 进行分类

我正在尝试使用 Apache Spark 的 MLlib 构建分类系统。我已经将朴素贝叶斯算法列入候选名单,并将使用 Java 8 来支持 Lambda 表达式。我是 lambda 表达式的新手,因此在 Java 中实现同样的表达式时面临困难。

我指的是以下链接,其中包含用 Scala 编写的示例,但很难将其转换为 Java 8。

http://chimpler.wordpress.com/2014/06/11/classifiying-documents-using-naive-bayes-on-apache-spark-mllib/

由于我不熟悉Scala,我被困在以下操作中,无法理解它,

有人可以为我指出正确的方向,即如何在利用 Sparks RDD 操作进行分布式处理的同时为文本文档样本构建 TfIdf 向量吗?

0 投票
0 回答
433 浏览

hadoop - 使用朴素贝叶斯 MlLib 达到分类的准确性

我一直在使用 Mahout 的 0.9 Naive Bayes 算法对文档数据进行分类。对于特定的火车(2/3 的数据)和测试(1/3 的数据)集,我的准确率在 86% 范围内。当我转向 Spark 的 MLlib 时,准确率下降到 82%。在这两种情况下都使用标准分析器。

MlLib 链接:https ://spark.apache.org/docs/latest/mllib-naive-bayes.html Mahout 链接:http ://mahout.apache.org/users/classification/bayesian.html

请在这方面帮助我,因为我必须很快在生产系统中使用 Spark,这对我来说是一个障碍。

与 Mahout 相比,我还发现 MlLib 在数据分类方面需要更多时间。

任何人都可以帮助我提高使用 MlLib 朴素贝叶斯的准确性。