问题标签 [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
32558 浏览

apache-spark - Apache Mahout 和 Apache Spark 的 MLlib 有什么区别?

考虑 MySQLproducts考虑用于电子商务网站的具有 1000 万种产品

我正在尝试建立一个分类模块来对产品进行分类。我正在使用 Apache Sqoop 将数据从 MySQL 导入 Hadoop。

我想使用 Mahout 作为机器学习框架来使用它的分类算法之一,然后我遇到了MLlib提供的 Spark

  • 那么这两个框架有什么区别呢?
  • 主要是各自的优势、劣势和局限是什么?
0 投票
5 回答
25458 浏览

apache-spark - How to assign unique contiguous numbers to elements in a Spark RDD

I have a dataset of (user, product, review), and want to feed it into mllib's ALS algorithm.

The algorithm needs users and products to be numbers, while mine are String usernames and String SKUs.

Right now, I get the distinct users and SKUs, then assign numeric IDs to them outside of Spark.

I was wondering whether there was a better way of doing this. The one approach I've thought of is to write a custom RDD that essentially enumerates 1 through n, then call zip on the two RDDs.

0 投票
2 回答
9290 浏览

java - 如何使用apache spark的MLlib的线性回归?

我是apache spark的新手,从MLlib的文档中,我找到了一个scala的例子,但我真的不知道scala,有人知道java中的例子吗?谢谢!示例代码是

来自MLlib的文档, 谢谢!

0 投票
1 回答
293 浏览

scala - 将长值传递给 MLlib 的 Rating() 方法

我正在尝试使用 Spark 的 MLlib 库构建推荐系统。(使用 Scala)为了能够使用 ALS train 方法,我需要使用 Rating() 方法(这是包 org.apache.spark.mllib.recommendation.Rating 的一部分)构建一个评级矩阵。该方法需要一个 int 作为用户 id 传递。但是,我正在使用的数据集有 11 位 id,因此当我尝试传递它时会引发错误。

有谁知道是否有某种方法可以将一个长值传递给 Rating 方法?或者以某种方式覆盖这个方法?或者以某种方式将 11 位数字唯一地转换为 10 位或 9 位数字,同时保持整数?

任何帮助将不胜感激。谢谢

0 投票
1 回答
1731 浏览

apache-spark - MLlib 的输入格式问题

我想运行 SVM 回归,但输入格式有问题。现在,我为一位客户提供的训练和测试集如下所示:

如果尝试将此文本文件读入 Spark,但没有成功。我错过了什么?我必须删除功能名称吗?现在它是 Vowal Wabbit 格式。

我的代码如下所示:

``我得到了答案,但我的 AUC 值为 1,这不应该是这种情况。

0 投票
1 回答
308 浏览

scala - MLlib examples not working

I am trying the MLlib examples from this page (on Spark using Scala): MLlib Page

All the examples are throwing the same error error. I have given the one I am getting for Linear Regression:

Could someone please guide on what is causing this error? Thank you.

0 投票
1 回答
14353 浏览

scala - 如何使用 Spark 创建用于文本分类的 TF-IDF?

我有一个格式如下的 CSV 文件:

product_idX 是一个整数,product_titleX 是一个字符串,例如:

我正在尝试从我的文件中创建 TF-IDF,以便我可以将它用于 MLlib 中的朴素贝叶斯分类器。

到目前为止,我正在使用 Spark for Scala,并使用我在官方页面和 Berkley AmpCamp 34上找到的教程。

所以我正在阅读文件:

然后我将它映射到元组中RDD[Array[String]]

在我将元组转换成对之后RDD[(Int, String)]

但是我被困在这里,我不知道如何从中创建 Vector 以将其转换为 TFIDF。

谢谢

0 投票
1 回答
4259 浏览

scala - scala.MatchError:火花 RDD 上为空

我对 spark 和 scala 都比较陌生。我试图在 spark 上使用 scala 实现协同过滤。下面是代码

它在最后一行抛出一个scala.MatchError: null org.apache.spark.rdd.PairRDDFunctions.lookup(PairRDDFunctions.scala:571)如果我将 distinctUsers rdd 收集到一个数组中并执行相同的代码,Thw 代码可以正常工作:

处理 RDD 时我在哪里弄错了?

Spark 版本:1.0.0 Scala 版本:2.10.4

0 投票
2 回答
12453 浏览

java - 如何用 Apache spark 计算平均值?

我处理了这样存储的 Double 列表:

我想计算这个列表的平均值。根据文档,:

MLlib 的所有方法都使用 Java 友好类型,因此您可以像在 Scala 中那样导入和调用它们。唯一需要注意的是,这些方法采用 Scala RDD 对象,而 Spark Java API 使用单独的 JavaRDD 类。您可以通过在 JavaRDD 对象上调用 .rdd() 将 Java RDD 转换为 Scala。

在同一页面上,我看到以下代码:

据我了解,这相当于(就类型而言)

结果,我试图计算我的平均值JavaRDD

但是,它不起作用并给我以下错误:The method mean() is undefined for the type RDD<Double>。我也没有在RDD scala 文档中提到这个函数。. 这是因为对我这边的理解不好,还是另有原因?

0 投票
1 回答
2235 浏览

scala - Apache Spark -- MlLib -- 协同过滤

我正在尝试使用 MlLib 进行协作过滤。

我在 Apache Spark 1.0.0 中运行 Scala 程序时遇到以下错误。

我该如何解决这个错误?