问题标签 [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1110 浏览

apache-spark - Spark 文档示例中的 SVMWithSGD 不起作用

我正在使用 PySpark 运行 Spark 1.1.0。

当我运行直接取自文档的示例时:

我收到一个错误:

可能是什么问题?

0 投票
1 回答
1007 浏览

apache-spark - 如何在 Apache Spark 集群模式下运行更多执行器

我有 50 名工人,我想在所有工人身上运行我的工作。
在 master:8080 中,我可以看到那里的所有 worker,
在 master:4040/executors 中,我可以看到 50 个 executor,
但是当我运行我的作业时,信息显示如下:


我的工作代码是这样的:(命令行)


这(scala代码):


我的问题是为什么我的集群上只运行一两个(有时)任务?
有什么方法可以配置任务数量还是由调度程序自动调度?
当我的工作在两个任务上运行并且它将与我在 master:4040 上观察到的两个执行器一起运行时,
它将提供 2 倍的加速,所以我想在所有执行器上运行我的工作,我该怎么做?

感谢大家。

0 投票
1 回答
1986 浏览

scala - Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间

我正在尝试从(大型)文本文档(TF-IDF 向量)集合中在 MLLib 上运行 KMeans。文档通过 Lucene 英语分析器发送,稀疏向量由 HashingTF.transform() 函数创建。无论我使用的并行度如何(通过 coalesce 函数),KMeans.train 总是在下面返回一个 OutOfMemory 异常。关于如何解决这个问题的任何想法?

0 投票
6 回答
5787 浏览

apache-spark - MLlib 到 Breeze 向量/矩阵对于 org.apache.spark.mllib 范围是私有的吗?

我在某处读到 MLlib 本地向量/矩阵当前正在包装 Breeze 实现,但是将 MLlib 转换为 Breeze 向量/矩阵的方法对于 org.apache.spark.mllib 范围是私有的。解决此问题的建议是在 org.apache.spark.mllib.something 包中编写代码。

有一个更好的方法吗?你能举一些相关的例子吗?

谢谢并恭祝安康,

0 投票
1 回答
639 浏览

scala - 尝试为 apache spark 编译示例 tfidf 代码时未找到 HashingTF

在尝试编译上述代码片段时,我收到以下错误

我在 build.sbt 文件中添加了以下几行。

任何指针?

0 投票
1 回答
4154 浏览

scala - 使用 Scala 转换 LabeledPoint 中 Vector 的 RDD - Apache Spark 中的 MLLib

我正在使用 Apache-Spark 和 Scala 的 MLlib。我需要转换一组 Vector

为了应用 MLLib 的算法,在 LabeledPoint 中
每个向量都由 0.0(假)或 1.0(真)的 Double 值组成。所有的向量都保存在一个 RDD 中,所以最终的 RDD 是

因此,在 RDD 中有创建的向量

如何从此 RDD (data_tmp) 或 RowMatrix (data) 创建一个 LabeledPoint 集以使用 MLLib 算法?例如,我需要在此处应用 SVM 线性算法

0 投票
1 回答
661 浏览

apache-spark - Apache Spark 上的线性回归

我们有一种情况,我们必须对数百万个小数据集运行线性回归,并存储每个数据集的权重和截距。我编写了下面的 scala 代码来执行此操作,其中我将这些数据集中的每一个作为 RDD 中的一行提供,然后我尝试对每个数据集运行回归(数据是 RDD,其中存储了(标签,特征)在每个行,在这种情况下,每个标签都有一个特征):

这里的问题是,LinearRegressionWithSGD需要一个 RDD 作为输入,而 Spark 不支持嵌套的 RDD。我选择了这种方法,因为所有这些数据集都可以彼此独立运行,因此我想分发它们(因此,排除了循环)。您能否建议我是否可以使用其他类型(数组、列表等)作为数据集输入到LinearRegressionWithSGD,或者甚至是一种更好的方法,仍然可以在 Spark 中分配此类计算?

0 投票
0 回答
188 浏览

apache-spark - 用朴素贝叶法消除低置信度的预测

我一直在尝试 Naive Baye 对 Spark 的 MLlib 的实现。在测试阶段,我希望消除预测置信度低的数据。

我的数据集主要由基于表单的文档组成,例如报告和申请表。它们包含键值对类型文本,因此我假设独立条件比自然语言更好。

关于先验的质量,我没有做任何特别的事情。我正在为每个类训练或多或少相同数量的样本,并将繁重的工作留给 MLlib 来完成。

鉴于这些事实,为每个类别定义置信度阈值是否有意义,在该阈值之上我将始终获得正确的结果?

谢谢

0 投票
1 回答
5299 浏览

java - 用于 LogisticRegression 的 Spark MLLib TFIDF 实现

我尝试使用 spark 1.1.0 提供的新 TFIDF 算法。我正在用 Java 编写我的 MLLib 工作,但我不知道如何让 TFIDF 实现工作。出于某种原因,IDFModel只接受JavaRDD作为方法转换的输入,而不是简单的 Vector。如何使用给定的类为我的 LabledPoints 建模 TFIDF 向量?

注意:文档行格式为 [Label; 文本]


到目前为止,这是我的代码:

肖恩欧文的解决方案

0 投票
0 回答
417 浏览

serialization - 使用 Kryo 序列化 Spark mllib 模型

我想序列化从 ML lib 分类树生成的模型,模型由节点和算法构造,节点似乎可序列化 我们可以将整个模型序列化到磁盘并从另一个类中读取以获取模型吗?

谢谢