问题标签 [apache-spark-mllib]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2209 问题

0 投票

2 回答

11595 浏览

scala - 添加两个 RDD[mllib.linalg.Vector]

我需要添加两个存储在两个文件中的矩阵。

latest1.txt和的内容latest2.txt具有下一个str：

我正在阅读这些文件，如下所示：

我想添加r1，r2。那么，有没有办法RDD[mllib.linalg.Vector]在 Apache-Spark 中添加这两个 s。

2015-01-30T09:29:01.880

0 投票

2 回答

507 浏览

amazon-web-services - 如何在 Spark MLLib 中为支持向量机配置内核选择和损失函数

我已经在 AWS Elastic Map Reduce(EMR) 上安装了 spark，并且一直在使用 MLLib 中的包运行 SVM。但是没有选项可以选择用于构建模型的参数，例如内核选择和错误分类成本（如 R 的 e1071 包中）。有人可以告诉我在构建模型时如何设置这些参数吗？

amazon-web-services apache-spark machine-learning svm apache-spark-mllib

2015-01-30T12:59:02.957

0 投票

1 回答

811 浏览

apache-spark - apache spark mllib naive bayes LabeledPoint 用法

我想使用 spark mllib naive bayes 来处理（训练和测试）这样的数据

男,疑酒,平日,12am-4am,75,30-39

这样我就可以测试标签男/女/未知。我想创建一个 LabeledPoint，以便可以针对 mllib 朴素贝叶斯算法运行此数据。spark站点上的示例

https://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

仅显示全为数字的数据。是否可以使用这样的字符串数据运行？我了解我的测试标签需要转换为双精度值，即男性/女性/未知 => 1.0 / 2.0 / 3.0

如果是这样，如何使用这种类型的语法将上面的 CSV 数据转换为 LabelPoint？

apache-spark apache-spark-mllib naivebayes

2015-02-02T00:14:35.240

0 投票

1 回答

465 浏览

java - 阿帕奇火花 | spark MLlib 对不同统计算法要求的输入文件格式是什么

我是 Apacha Spark 和 MLlib 的新手。除了一件事之外，我对使用库（MLlib）有了相当的了解。我不明白如何为各种算法准备输入数据文件。请帮忙。谢谢。

java apache-spark apache-spark-mllib

2015-02-05T12:08:44.063

0 投票

1 回答

177 浏览

apache-spark - 使用 Mahout 向量训练 Spark k-means

我的 hdfs 中有一些序列文件格式的 Mahout 向量。是否可以以某种方式使用相同的向量在 Spark 中训练 KMeans 模型？我可以将现有的 Mahout 向量转换为 Spark 向量 (mllib)，但我想避免这种情况。

apache-spark machine-learning mahout k-means apache-spark-mllib

2015-02-07T15:13:40.860

0 投票

1 回答

7464 浏览

python - 在 python 中保存 Apache Spark mllib 模型

我正在尝试将拟合模型保存到 Spark 中的文件中。我有一个训练 RandomForest 模型的 Spark 集群。我想在另一台机器上保存并重复使用已安装的模型。我在网上阅读了一些建议进行 java 序列化的帖子。我在 python 中做同样的事情，但它不起作用。诀窍是什么？

我收到此错误：

我正在使用 Apache Spark 1.2.0。

python pyspark apache-spark-mllib

2015-02-10T09:11:21.610

0 投票

2 回答

91 浏览

apache-spark - Apache Spark 看不到我机器的所有内存

我创建了一个由 8 台机器组成的 Spark 集群。每台机器有 104 GB 的 RAM 和 16 个虚拟内核。

我似乎 Spark 每台机器只能看到 42 GB 的 RAM，这是不正确的。你知道为什么 Spark 看不到机器的所有 RAM 吗？

在此处输入图像描述

PS：我使用的是 Apache Spark 1.2

apache-spark google-compute-engine apache-spark-mllib

2015-02-10T16:25:06.230

0 投票

1 回答

2200 浏览

scala - spark mllib 将函数应用于 rowMatrix 的所有元素

我有一个行矩阵xw

我想对其每个元素应用一个函数：

f(x)=exp(-x*x)

矩阵的元素类型可以可视化为：

我的主要问题是我不能在矢量上使用地图

我该如何解决？

scala apache-spark apache-spark-mllib

2015-02-10T18:18:45.777

0 投票

1 回答

1279 浏览

apache-spark - 如何使用具有有限评级值的 Apache Spark ALS（交替最小二乘）算法

我正在尝试使用 ALS，但目前我的数据仅限于有关用户购买内容的信息。因此，当用户 X 购买项目 Y 时，我试图从 Apache Spark 填充 ALS，其评级等于 1（一）（并且只有我提供给该算法的此类信息）。

我试图学习它（将数据划分为训练/测试/验证），或者只是试图学习所有数据，但最后我得到的预测值对于任何一对用户项都极其相似（在第 5 或第 6 时有差异的值放在逗号之后，例如 0,86001 和 0,86002）。

我正在考虑这个问题，也许是因为我只能提供等于 1 的评级，所以 ALS 不能在这种极端情况下使用吗？

评级有什么技巧，所以我可以用来解决这样的问题（我只有关于购买什么的信息 - 稍后我将获得更多数据，但有一刻我必须使用某种协作过滤，直到我获得更多数据 - 换句话说，我需要在启动页面上向用户展示某种推荐我选择 ALS 作为启动页面，但也许我使用了其他东西，究竟是什么）？

当然，我正在更改迭代、lambda、等级等参数。

apache-spark apache-spark-mllib collaborative-filtering

2015-02-11T20:15:03.650

0 投票

1 回答

473 浏览

scala - spark mllib 用地图预测错误

我有一个线性回归模型model和一组 LabeledPoint regPoints。

我能够预测第一个样本

如果我尝试在样本上使用地图，则会出现错误。

我该如何解决这个问题？

编辑：这是完整的代码

编辑 2：如果将代码编写为带有 sbt 程序集的 jar 文件中的 scala 类和数据包，则该代码似乎可以工作。这个问题很可能与控制台中的依赖有关

scala apache-spark apache-spark-mllib

2015-02-12T16:20:13.270

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-mllib]

Reference