问题标签 [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Apache Mahout 和 Apache Spark 的 MLlib 有什么区别?
考虑 MySQLproducts
考虑用于电子商务网站的具有 1000 万种产品
我正在尝试建立一个分类模块来对产品进行分类。我正在使用 Apache Sqoop 将数据从 MySQL 导入 Hadoop。
我想使用 Mahout 作为机器学习框架来使用它的分类算法之一,然后我遇到了MLlib提供的 Spark
- 那么这两个框架有什么区别呢?
- 主要是各自的优势、劣势和局限是什么?
apache-spark - How to assign unique contiguous numbers to elements in a Spark RDD
I have a dataset of (user, product, review)
, and want to feed it into mllib's ALS algorithm.
The algorithm needs users and products to be numbers, while mine are String usernames and String SKUs.
Right now, I get the distinct users and SKUs, then assign numeric IDs to them outside of Spark.
I was wondering whether there was a better way of doing this. The one approach I've thought of is to write a custom RDD that essentially enumerates 1 through n
, then call zip on the two RDDs.
java - 如何使用apache spark的MLlib的线性回归?
我是apache spark的新手,从MLlib的文档中,我找到了一个scala的例子,但我真的不知道scala,有人知道java中的例子吗?谢谢!示例代码是
来自MLlib的文档, 谢谢!
scala - 将长值传递给 MLlib 的 Rating() 方法
我正在尝试使用 Spark 的 MLlib 库构建推荐系统。(使用 Scala)为了能够使用 ALS train 方法,我需要使用 Rating() 方法(这是包 org.apache.spark.mllib.recommendation.Rating 的一部分)构建一个评级矩阵。该方法需要一个 int 作为用户 id 传递。但是,我正在使用的数据集有 11 位 id,因此当我尝试传递它时会引发错误。
有谁知道是否有某种方法可以将一个长值传递给 Rating 方法?或者以某种方式覆盖这个方法?或者以某种方式将 11 位数字唯一地转换为 10 位或 9 位数字,同时保持整数?
任何帮助将不胜感激。谢谢
apache-spark - MLlib 的输入格式问题
我想运行 SVM 回归,但输入格式有问题。现在,我为一位客户提供的训练和测试集如下所示:
如果尝试将此文本文件读入 Spark,但没有成功。我错过了什么?我必须删除功能名称吗?现在它是 Vowal Wabbit 格式。
我的代码如下所示:
``我得到了答案,但我的 AUC 值为 1,这不应该是这种情况。
scala - MLlib examples not working
I am trying the MLlib examples from this page (on Spark using Scala): MLlib Page
All the examples are throwing the same error error. I have given the one I am getting for Linear Regression:
Could someone please guide on what is causing this error? Thank you.
scala - scala.MatchError:火花 RDD 上为空
我对 spark 和 scala 都比较陌生。我试图在 spark 上使用 scala 实现协同过滤。下面是代码
它在最后一行抛出一个scala.MatchError: null org.apache.spark.rdd.PairRDDFunctions.lookup(PairRDDFunctions.scala:571)如果我将 distinctUsers rdd 收集到一个数组中并执行相同的代码,Thw 代码可以正常工作:
处理 RDD 时我在哪里弄错了?
Spark 版本:1.0.0 Scala 版本:2.10.4
java - 如何用 Apache spark 计算平均值?
我处理了这样存储的 Double 列表:
我想计算这个列表的平均值。根据文档,:
MLlib 的所有方法都使用 Java 友好类型,因此您可以像在 Scala 中那样导入和调用它们。唯一需要注意的是,这些方法采用 Scala RDD 对象,而 Spark Java API 使用单独的 JavaRDD 类。您可以通过在 JavaRDD 对象上调用 .rdd() 将 Java RDD 转换为 Scala。
在同一页面上,我看到以下代码:
据我了解,这相当于(就类型而言)
结果,我试图计算我的平均值JavaRDD
:
但是,它不起作用并给我以下错误:The method mean() is undefined for the type RDD<Double>
。我也没有在RDD scala 文档中提到这个函数。. 这是因为对我这边的理解不好,还是另有原因?
scala - Apache Spark -- MlLib -- 协同过滤
我正在尝试使用 MlLib 进行协作过滤。
我在 Apache Spark 1.0.0 中运行 Scala 程序时遇到以下错误。
我该如何解决这个错误?