问题标签 [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark 文档示例中的 SVMWithSGD 不起作用
我正在使用 PySpark 运行 Spark 1.1.0。
当我运行直接取自文档的示例时:
我收到一个错误:
可能是什么问题?
apache-spark - 如何在 Apache Spark 集群模式下运行更多执行器
我有 50 名工人,我想在所有工人身上运行我的工作。
在 master:8080 中,我可以看到那里的所有 worker,
在 master:4040/executors 中,我可以看到 50 个 executor,
但是当我运行我的作业时,信息显示如下:
我的工作代码是这样的:(命令行)
这(scala代码):
我的问题是为什么我的集群上只运行一两个(有时)任务?
有什么方法可以配置任务数量还是由调度程序自动调度?
当我的工作在两个任务上运行并且它将与我在 master:4040 上观察到的两个执行器一起运行时,
它将提供 2 倍的加速,所以我想在所有执行器上运行我的工作,我该怎么做?
感谢大家。
scala - Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间
我正在尝试从(大型)文本文档(TF-IDF 向量)集合中在 MLLib 上运行 KMeans。文档通过 Lucene 英语分析器发送,稀疏向量由 HashingTF.transform() 函数创建。无论我使用的并行度如何(通过 coalesce 函数),KMeans.train 总是在下面返回一个 OutOfMemory 异常。关于如何解决这个问题的任何想法?
apache-spark - MLlib 到 Breeze 向量/矩阵对于 org.apache.spark.mllib 范围是私有的吗?
我在某处读到 MLlib 本地向量/矩阵当前正在包装 Breeze 实现,但是将 MLlib 转换为 Breeze 向量/矩阵的方法对于 org.apache.spark.mllib 范围是私有的。解决此问题的建议是在 org.apache.spark.mllib.something 包中编写代码。
有一个更好的方法吗?你能举一些相关的例子吗?
谢谢并恭祝安康,
scala - 尝试为 apache spark 编译示例 tfidf 代码时未找到 HashingTF
在尝试编译上述代码片段时,我收到以下错误
我在 build.sbt 文件中添加了以下几行。
任何指针?
scala - 使用 Scala 转换 LabeledPoint 中 Vector 的 RDD - Apache Spark 中的 MLLib
我正在使用 Apache-Spark 和 Scala 的 MLlib。我需要转换一组 Vector
为了应用 MLLib 的算法,在 LabeledPoint 中
每个向量都由 0.0(假)或 1.0(真)的 Double 值组成。所有的向量都保存在一个 RDD 中,所以最终的 RDD 是
因此,在 RDD 中有创建的向量
如何从此 RDD (data_tmp) 或 RowMatrix (data) 创建一个 LabeledPoint 集以使用 MLLib 算法?例如,我需要在此处应用 SVM 线性算法
apache-spark - Apache Spark 上的线性回归
我们有一种情况,我们必须对数百万个小数据集运行线性回归,并存储每个数据集的权重和截距。我编写了下面的 scala 代码来执行此操作,其中我将这些数据集中的每一个作为 RDD 中的一行提供,然后我尝试对每个数据集运行回归(数据是 RDD,其中存储了(标签,特征)在每个行,在这种情况下,每个标签都有一个特征):
这里的问题是,LinearRegressionWithSGD需要一个 RDD 作为输入,而 Spark 不支持嵌套的 RDD。我选择了这种方法,因为所有这些数据集都可以彼此独立运行,因此我想分发它们(因此,排除了循环)。您能否建议我是否可以使用其他类型(数组、列表等)作为数据集输入到LinearRegressionWithSGD,或者甚至是一种更好的方法,仍然可以在 Spark 中分配此类计算?
apache-spark - 用朴素贝叶法消除低置信度的预测
我一直在尝试 Naive Baye 对 Spark 的 MLlib 的实现。在测试阶段,我希望消除预测置信度低的数据。
我的数据集主要由基于表单的文档组成,例如报告和申请表。它们包含键值对类型文本,因此我假设独立条件比自然语言更好。
关于先验的质量,我没有做任何特别的事情。我正在为每个类训练或多或少相同数量的样本,并将繁重的工作留给 MLlib 来完成。
鉴于这些事实,为每个类别定义置信度阈值是否有意义,在该阈值之上我将始终获得正确的结果?
谢谢
serialization - 使用 Kryo 序列化 Spark mllib 模型
我想序列化从 ML lib 分类树生成的模型,模型由节点和算法构造,节点似乎可序列化 我们可以将整个模型序列化到磁盘并从另一个类中读取以获取模型吗?
谢谢