问题标签 [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2745 浏览

apache-spark - 使用 Spark KMeans 算法打印 ClusterID 及其元素。

我有这个程序可以在 apache-spark 上打印 Kmeans 算法的 MSSE。生成了 20 个集群。我正在尝试打印 clusterID 和分配给相应 clusterID 的元素。我如何循环 clusterID 以打印元素。

感谢你们!!

0 投票
0 回答
243 浏览

apache-spark - 在 Spark 的 MLlib 中访问 Naive Baye 的后验概率

我正在尝试使用 Java 使用 MLlib 访问朴素贝叶预测的后验概率。由于成员变量 brzPi 和 brzTheta 是私有的,我应用了一个 hack 来通过反射访问这些值。

我正在使用 Java,但找不到将微风库与 Java 一起使用的方法。如果我是正确的,相关计算是通过 NaiveBayesModel 类中的第 66 行给出的,

标签(brzArgmax(brzPi + brzTheta * testData.toBreeze))

这里 DenseVectors 的元素加法和乘法作为在 Java 中不能直接访问的运算符给出。此外,对我来说,Java 对 brzArgmax 的使用不是很清楚。

谁能帮我将上述计算从Scala转换为Java。

PS:我已经对 Jira 提出了改进请求,以使这些变量可以从 MLlib 外部直接访问。

谢谢,贾廷

0 投票
1 回答
518 浏览

apache-spark - 使用sbt编译时如何在spark中添加依赖?

当我查看 MLLIB 部分的介绍时,我读到以下句子:“要使用来自 netlib-java 的本机库,请使用 -Pnetlib-lgpl 构建 Spark 或包含 com.github.fommil.netlib:all:1.1.2 作为你项目的依赖”因为我是 sbt 的新手,所以我真的不知道如何添加对它的依赖。有人可以给我一些建议吗?事实上,我也不知道如果我忽略依赖关系是否重要谢谢。

0 投票
1 回答
467 浏览

scala - 如何在我的代码中使用私有函数[mllib]?

我开始使用 spark,特别是 mllib 库。其中一些函数的范围和私有语句受到限制。如何在我的代码中使用这些函数?示例:KMeans.scala

如果我创建一个扩展 kmeans 的类并尝试使用此函数,我将无法访问它。显示以下错误:

谁能给我一些如何解决这个问题的例子?谢谢并恭祝安康

0 投票
4 回答
1551 浏览

java - Scala 中的 Spark 代码可以转换为 Java 吗?

我有使用 Apache Spark 的源代码。源代码是用 Scala 编写的,我想将其转换为 Java。

是否可以从所有 Scala 源代码转换为 Java?

0 投票
0 回答
15887 浏览

apache-spark - 奇怪的 org.apache.spark.SparkException:作业因阶段失败而中止

我正在尝试在独立模式下部署 spark 应用程序。在这个应用程序中,我使用 tf-idf 向量训练朴素贝叶斯分类器。

我以与这篇文章( LogisticRegression 的 Spark MLLib TFIDF 实现)类似的方式编写了应用程序,不同之处在于我获取每个文档,并对其进行标记和规范化。

所以 Document 的每个副本都有 textField 和 labelField,其中包含规范化的文档文本作为字符串列表(单词列表)和 labelField,其中包含文档的标签作为双精度。parsingFunction 没有任何 Spark 函数,如 map 或 flatMap 等。因此它不包含任何数据分布函数。

当我以本地模式启动我的应用程序时 - 它工作正常,并且在预测模式分类器中正确分类测试文档,但是当我尝试以独立模式启动它时 - 我遇到了一些麻烦 -

当我在一台机器上启动主节点和工作节点时 - 应用程序正常工作,但预测结果比本地模式更差。当我在一台机器上启动 master 并在另一台机器上启动 worker - 应用程序崩溃并出现以下错误:

在日志中我发现:

我调试了应用程序,发现它在这段代码之后崩溃了:

也许有人知道发生了什么?

谢谢你。

PS 我在 Windows 7 64 位上使用 Spark 1.1.0。两台机器都有 8 核 CPU 和 16 GB RAM。

0 投票
2 回答
1536 浏览

java - 在 Spark MLlib 上使用来自 Java 的 Breeze

在尝试从 Java 中使用 MLlib 时,使用微风矩阵操作的正确方法是什么?例如,scala 中的乘法它只是“ matrix * vector”。Java中对应的功能是如何表达的?

有像“ $colon$times”这样的方法可以通过正确的方式调用

可能需要一个运算符实例...breeze.linalg.operators.OpMulMatrix.Impl2 但是要使用哪个确切类型的 Operation 实例和参数?

0 投票
1 回答
363 浏览

apache-spark - Spark在独立集群上的应用效率低下

我正在尝试在独立集群上运行 spark 应用程序。在这个应用程序中,我使用 tf-idf 向量训练朴素贝叶斯分类器。

我以与这篇文章类似的方式编写了应用程序(LogisticRegression 的 Spark MLLib TFIDF 实现)。主要区别在于,我对每个文档进行标记化和规范化:

parsingFunction 没有任何 Spark 函数,如 map 或 flatMap 等。因此它不包含任何数据分布函数。

我的集群是 - 一台主机和另外两台机器 - 节点。所有机器都有 8 核 CPU 和 16 GB RAM。我正在尝试在 20 个文本文件(每个 ~ 100 KB - 1.5 MB)上训练分类器。我不使用分布式文件系统并将文件直接放入节点。

问题是我的集群没有我想象的那么快 - 分类器训练了大约 5 分钟......在本地模式下,这个操作花费的时间要少得多。

我应该注意什么?

我会很感激任何建议。

谢谢你!

0 投票
1 回答
517 浏览

java - 如何在 web 项目中使用 spark mllib

我正在尝试mllib.jar在 web 项目中使用 spark。我下载spark-1.1.0-bin-hadoop2.4并解压缩。找到一些jar如下:

数据核-api-jdi-3.2.1.jar

datanucleus-core-3.2.2.jar

数据核-rdbms-3.2.1.jar

spark-assembly-1.1.0-hadoop2.4.0.jar

spark-examples-1.1.0-hadoop2.4.0.jar

然后我用spark-assembly-1.1.0-hadoop2.4.0.jar导入分类的方法。它可以在java项目中成功运行。但是,当我将 jar 添加到 时SomeWebProject/web-inf/lib,会出现错误消息:

我知道这是因为我的 web 项目 javax.servlet 类与 spark jar 重复。我尝试删除 spark 的javax.servlet. 它仍然无法正常工作。

你能告诉我怎么解决吗

我可以使用其他 spark jarmllib在本地模式下运行吗?这个罐子太大了,差不多了132 mb,我认为其中一些没用。但我找不到任何其他可用的罐子。这个 jar 是唯一的导入方式spark-mllib.jar吗?ps 由于某些原因,我无法在我的服务器中部署 spark。所以我不能使用hadoop环境

非常感谢!!!

0 投票
2 回答
1116 浏览

scala - 使用 MLlib 从 Spark 的决策树中查找重要性值

我们正在使用 MLlib 为决策树运行 Spark 1.0 或 1.1。

当我使用示例数据运行示例 SCALA 代码时,它可以正常工作,但我无法从结果中找到特征重要性。

有人有关于如何获取值的信息吗?