问题标签 [apache-spark-mllib]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2209 问题

0 投票

1 回答

8335 浏览

scala - 出于机器学习目的使用“randomSplit”在 Scala 中理解拆分数据的问题

嗨，我是 MLlib 的新手，我正在阅读 Spark 网站上有关它的文档。我很难理解为什么在下面的代码中我们需要缓存“0”用于训练和“1”用于测试：

谁能帮我理解原因？据我所知，我们需要正负样本，所以“1”可以是正的，“0”可以是负的，为什么要这样划分？

谢谢！

2014-07-21T04:13:17.343

0 投票

1 回答

915 浏览

scala - 为什么从 Spark 1.0.1 开始出现 KMeansModel.predict 错误？

我使用Scala（2.10.4 版本）并且Spark- 我已移至Spark1.0.1。版本并注意到我的一个脚本现在无法正常工作。MLlib它以下列方式使用库中的k-means 方法。

假设我有一个KMeansModel名为clusters：

这是我有问题的方法以及我在尝试编译它时收到的错误：

KMeansModel文档清楚地表明该predict函数需要一个Array[Double]类型的参数，我想我确实（不是吗？）给它一个这种类型的参数。预先感谢您对我做错了什么提出任何建议。

scala apache-spark k-means apache-spark-mllib predict

2014-07-25T12:20:18.193

0 投票

1 回答

786 浏览

apache-spark - 为推荐引擎建模隐式和显式行为数据

我一直在关注用户行为数据，1. 喜欢 2. 不喜欢 3. 评分 4. 浏览过的产品 5. 购买过的产品

spark MLlib 支持置信度为 0 或 1 的隐式行为数据，参考 ( http://spark.apache.org/docs/latest/mllib-collaborative-filtering.html )。

例如，用户 1 查看了产品 A，那么模型将类似于

1,A,1（userId、productId、二进制置信度）

但是通过观察行为的性质，被喜欢的产品比被观看的产品更有信心。购买的产品比查看的产品更有信心。

如何根据行为类型对数据进行建模？

apache-spark apache-spark-mllib recommendation-engine collaborative-filtering

2014-07-25T23:14:37.373

0 投票

1 回答

352 浏览

scala - REPL returns RDD values but SBT won't compile

When running the below method from a fresh spark shell REPL session everything works fine. However when I try to compile the class containing this method I get the following errors

In both cases I'm using Spark 1.0.1 The code itself is as follows.

It is taken from the MLLib tutorial (Adapted slightly) , no idea whats going wrong.

scala apache-spark sbt apache-spark-mllib

2014-07-28T18:43:58.747

0 投票

3 回答

13664 浏览

scala - 如何使用 Scala 运行具有分类特征集的 Spark 决策树？

我有一个具有相应 categoricalFeaturesInfo 的功能集：Map [Int，Int]。但是，对于我的生活，我无法弄清楚我应该如何让 DecisionTree 类工作。它不会接受任何东西，而是接受 LabeledPoint 作为数据。但是，LabeledPoint 需要 (double, vector) ，其中向量需要双精度值。

我得到的错误：

到目前为止我的资源：树配置、决策树、标记点

scala apache-spark tree apache-spark-mllib categorical-data

2014-07-30T13:36:09.323

0 投票

0 回答

4024 浏览