问题标签 [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 出于机器学习目的使用“randomSplit”在 Scala 中理解拆分数据的问题
嗨,我是 MLlib 的新手,我正在阅读 Spark 网站上有关它的文档。我很难理解为什么在下面的代码中我们需要缓存“0”用于训练和“1”用于测试:
谁能帮我理解原因?据我所知,我们需要正负样本,所以“1”可以是正的,“0”可以是负的,为什么要这样划分?
谢谢!
scala - 为什么从 Spark 1.0.1 开始出现 KMeansModel.predict 错误?
我使用Scala
(2.10.4 版本)并且Spark
- 我已移至Spark
1.0.1。版本并注意到我的一个脚本现在无法正常工作。MLlib
它以下列方式使用库中的k-means 方法。
假设我有一个KMeansModel
名为clusters
:
这是我有问题的方法以及我在尝试编译它时收到的错误:
KMeansModel文档清楚地表明该predict
函数需要一个Array[Double]
类型的参数,我想我确实(不是吗?)给它一个这种类型的参数。预先感谢您对我做错了什么提出任何建议。
apache-spark - 为推荐引擎建模隐式和显式行为数据
我一直在关注用户行为数据,1. 喜欢 2. 不喜欢 3. 评分 4. 浏览过的产品 5. 购买过的产品
spark MLlib 支持置信度为 0 或 1 的隐式行为数据,参考 ( http://spark.apache.org/docs/latest/mllib-collaborative-filtering.html )。
例如,用户 1 查看了产品 A,那么模型将类似于
1,A,1(userId、productId、二进制置信度)
但是通过观察行为的性质,被喜欢的产品比被观看的产品更有信心。购买的产品比查看的产品更有信心。
如何根据行为类型对数据进行建模?
scala - REPL returns RDD values but SBT won't compile
When running the below method from a fresh spark shell REPL session everything works fine. However when I try to compile the class containing this method I get the following errors
In both cases I'm using Spark 1.0.1 The code itself is as follows.
It is taken from the MLLib tutorial (Adapted slightly) , no idea whats going wrong.
java - Spark:无法加载本机 gpl 库
尝试运行一个非常简单的 spark 作业(在 mllib 中使用带有 SGD 的逻辑回归)时出现以下错误:
这是我用来提交作业的命令:
实际的java命令是:
似乎-Djava.library.path
没有设置。我还尝试了上面的 java 命令并将本机 lib 目录提供给java.library.path
,但仍然遇到相同的错误。这是本机 lib 目录的内容:
知道出了什么问题吗?谢谢。
scala - Apache Spark - MLlib - K-Means 输入格式
我想执行一个 K-Means 任务并且在我得到我的结果指标之前未能训练模型并被踢出 Sparks scala shell。我不确定输入格式是问题还是其他问题。我使用 Spark 1.0.0,我的输入纺织品(400MB)如下所示:
我不确定是否可以使用前两个,因为在 MLlib 示例文件中只使用浮点数。所以我也尝试了最后两个:
我在这两种情况下的错误代码都在这里:
我错过了什么?
apache-spark - MLlib:java.lang.UnknownError:没有找到连续变量的 bin
我正在使用决策树算法,但出现以下错误。我有超过 500 个功能。那是问题吗?任何帮助都会很棒!
apache-spark - 在 Java 中使用 Spark MLlib 进行分类
我正在尝试使用 Apache Spark 的 MLlib 构建分类系统。我已经将朴素贝叶斯算法列入候选名单,并将使用 Java 8 来支持 Lambda 表达式。我是 lambda 表达式的新手,因此在 Java 中实现同样的表达式时面临困难。
我指的是以下链接,其中包含用 Scala 编写的示例,但很难将其转换为 Java 8。
由于我不熟悉Scala,我被困在以下操作中,无法理解它,
有人可以为我指出正确的方向,即如何在利用 Sparks RDD 操作进行分布式处理的同时为文本文档样本构建 TfIdf 向量吗?
hadoop - 使用朴素贝叶斯 MlLib 达到分类的准确性
我一直在使用 Mahout 的 0.9 Naive Bayes 算法对文档数据进行分类。对于特定的火车(2/3 的数据)和测试(1/3 的数据)集,我的准确率在 86% 范围内。当我转向 Spark 的 MLlib 时,准确率下降到 82%。在这两种情况下都使用标准分析器。
MlLib 链接:https ://spark.apache.org/docs/latest/mllib-naive-bayes.html Mahout 链接:http ://mahout.apache.org/users/classification/bayesian.html
请在这方面帮助我,因为我必须很快在生产系统中使用 Spark,这对我来说是一个障碍。
与 Mahout 相比,我还发现 MlLib 在数据分类方面需要更多时间。
任何人都可以帮助我提高使用 MlLib 朴素贝叶斯的准确性。