问题标签 [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
11595 浏览

scala - 添加两个 RDD[mllib.linalg.Vector]

我需要添加两个存储在两个文件中的矩阵。

latest1.txt和的内容latest2.txt具有下一个str:

我正在阅读这些文件,如下所示:

我想添加r1,r2。那么,有没有办法RDD[mllib.linalg.Vector]在 Apache-Spark 中添加这两个 s。

0 投票
2 回答
507 浏览

amazon-web-services - 如何在 Spark MLLib 中为支持向量机配置内核选择和损失函数

我已经在 AWS Elastic Map Reduce(EMR) 上安装了 spark,并且一直在使用 MLLib 中的包运行 SVM。但是没有选项可以选择用于构建模型的参数,例如内核选择和错误分类成本(如 R 的 e1071 包中)。有人可以告诉我在构建模型时如何设置这些参数吗?

0 投票
1 回答
811 浏览

apache-spark - apache spark mllib naive bayes LabeledPoint 用法

我想使用 spark mllib naive bayes 来处理(训练和测试)这样的数据

男,疑酒,平日,12am-4am,75,30-39

这样我就可以测试标签男/女/未知。我想创建一个 LabeledPoint,以便可以针对 mllib 朴素贝叶斯算法运行此数据。spark站点上的示例

https://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

仅显示全为数字的数据。是否可以使用这样的字符串数据运行?我了解我的测试标签需要转换为双精度值,即男性/女性/未知 => 1.0 / 2.0 / 3.0

如果是这样,如何使用这种类型的语法将上面的 CSV 数据转换为 LabelPoint?

0 投票
1 回答
465 浏览

java - 阿帕奇火花 | spark MLlib 对不同统计算法要求的输入文件格式是什么

我是 Apacha Spark 和 MLlib 的新手。除了一件事之外,我对使用库(MLlib)有了相当的了解。我不明白如何为各种算法准备输入数据文件。请帮忙。谢谢。

0 投票
1 回答
177 浏览

apache-spark - 使用 Mahout 向量训练 Spark k-means

我的 hdfs 中有一些序列文件格式的 Mahout 向量。是否可以以某种方式使用相同的向量在 Spark 中训练 KMeans 模型?我可以将现有的 Mahout 向量转换为 Spark 向量 (mllib),但我想避免这种情况。

0 投票
1 回答
7464 浏览

python - 在 python 中保存 Apache Spark mllib 模型

我正在尝试将拟合模型保存到 Spark 中的文件中。我有一个训练 RandomForest 模型的 Spark 集群。我想在另一台机器上保存并重复使用已安装的模型。我在网上阅读了一些建议进行 java 序列化的帖子。我在 python 中做同样的事情,但它不起作用。诀窍是什么?

我收到此错误:

我正在使用 Apache Spark 1.2.0。

0 投票
2 回答
91 浏览

apache-spark - Apache Spark 看不到我机器的所有内存

我创建了一个由 8 台机器组成的 Spark 集群。每台机器有 104 GB 的 RAM 和 16 个虚拟内核。

我似乎 Spark 每台机器只能看到 42 GB 的 RAM,这是不正确的。你知道为什么 Spark 看不到机器的所有 RAM 吗?

在此处输入图像描述

PS:我使用的是 Apache Spark 1.2

0 投票
1 回答
2200 浏览

scala - spark mllib 将函数应用于 rowMatrix 的所有元素

我有一个行矩阵xw

我想对其每个元素应用一个函数:

f(x)=exp(-x*x)

矩阵的元素类型可以可视化为:

我的主要问题是我不能在矢量上使用地图

我该如何解决?

0 投票
1 回答
1279 浏览

apache-spark - 如何使用具有有限评级值的 Apache Spark ALS(交替最小二乘)算法

我正在尝试使用 ALS,但目前我的数据仅限于有关用户购买内容的信息。因此,当用户 X 购买项目 Y 时,我试图从 Apache Spark 填充 ALS,其评级等于 1(一)(并且只有我提供给该算法的此类信息)。

我试图学习它(将数据划分为训练/测试/验证),或者只是试图学习所有数据,但最后我得到的预测值对于任何一对用户项都极其相似(在第 5 或第 6 时有差异的值放在逗号之后,例如 0,86001 和 0,86002)。

我正在考虑这个问题,也许是因为我只能提供等于 1 的评级,所以 ALS 不能在这种极端情况下使用吗?

评级有什么技巧,所以我可以用来解决这样的问题(我只有关于购买什么的信息 - 稍后我将获得更多数据,但有一刻我必须使用某种协作过滤,直到我获得更多数据 - 换句话说,我需要在启动页面上向用户展示某种推荐我选择 ALS 作为启动页面,但也许我使用了其他东西,究竟是什么)?

当然,我正在更改迭代、lambda、等级等参数。

0 投票
1 回答
473 浏览

scala - spark mllib 用地图预测错误

我有一个线性回归模型model和一组 LabeledPoint regPoints

我能够预测第一个样本

如果我尝试在样本上使用地图,则会出现错误。

我该如何解决这个问题?

编辑:这是完整的代码

编辑 2:如果将代码编写为带有 sbt 程序集的 jar 文件中的 scala 类和数据包,则该代码似乎可以工作。这个问题很可能与控制台中的依赖有关