“apache-spark-mllib”的相关标签问题

0 投票

1 回答

2745 浏览

apache-spark - 使用 Spark KMeans 算法打印 ClusterID 及其元素。

我有这个程序可以在 apache-spark 上打印 Kmeans 算法的 MSSE。生成了 20 个集群。我正在尝试打印 clusterID 和分配给相应 clusterID 的元素。我如何循环 clusterID 以打印元素。

感谢你们！！

0 投票

0 回答

243 浏览

apache-spark - 在 Spark 的 MLlib 中访问 Naive Baye 的后验概率

我正在尝试使用 Java 使用 MLlib 访问朴素贝叶预测的后验概率。由于成员变量 brzPi 和 brzTheta 是私有的，我应用了一个 hack 来通过反射访问这些值。

我正在使用 Java，但找不到将微风库与 Java 一起使用的方法。如果我是正确的，相关计算是通过 NaiveBayesModel 类中的第 66 行给出的，

标签（brzArgmax（brzPi + brzTheta * testData.toBreeze））

这里 DenseVectors 的元素加法和乘法作为在 Java 中不能直接访问的运算符给出。此外，对我来说，Java 对 brzArgmax 的使用不是很清楚。

谁能帮我将上述计算从Scala转换为Java。

PS：我已经对 Jira 提出了改进请求，以使这些变量可以从 MLlib 外部直接访问。

谢谢，贾廷

apache-spark apache-spark-mllib

0 投票

1 回答

518 浏览

apache-spark - 使用sbt编译时如何在spark中添加依赖？

当我查看 MLLIB 部分的介绍时，我读到以下句子：“要使用来自 netlib-java 的本机库，请使用 -Pnetlib-lgpl 构建 Spark 或包含 com.github.fommil.netlib:all:1.1.2 作为你项目的依赖”因为我是 sbt 的新手，所以我真的不知道如何添加对它的依赖。有人可以给我一些建议吗？事实上，我也不知道如果我忽略依赖关系是否重要谢谢。

apache-spark dependencies sbt apache-spark-mllib

0 投票

1 回答

467 浏览

scala - 如何在我的代码中使用私有函数[mllib]？

我开始使用 spark，特别是 mllib 库。其中一些函数的范围和私有语句受到限制。如何在我的代码中使用这些函数？示例：KMeans.scala

如果我创建一个扩展 kmeans 的类并尝试使用此函数，我将无法访问它。显示以下错误：

谁能给我一些如何解决这个问题的例子？谢谢并恭祝安康

scala apache-spark cluster-analysis private apache-spark-mllib

0 投票

4 回答

1551 浏览

java - Scala 中的 Spark 代码可以转换为 Java 吗？

我有使用 Apache Spark 的源代码。源代码是用 Scala 编写的，我想将其转换为 Java。

是否可以从所有 Scala 源代码转换为 Java？

java scala apache-spark apache-spark-mllib

0 投票

0 回答

15887 浏览

apache-spark - 奇怪的 org.apache.spark.SparkException：作业因阶段失败而中止

我正在尝试在独立模式下部署 spark 应用程序。在这个应用程序中，我使用 tf-idf 向量训练朴素贝叶斯分类器。

我以与这篇文章（ LogisticRegression 的 Spark MLLib TFIDF 实现）类似的方式编写了应用程序，不同之处在于我获取每个文档，并对其进行标记和规范化。

所以 Document 的每个副本都有 textField 和 labelField，其中包含规范化的文档文本作为字符串列表（单词列表）和 labelField，其中包含文档的标签作为双精度。parsingFunction 没有任何 Spark 函数，如 map 或 flatMap 等。因此它不包含任何数据分布函数。

当我以本地模式启动我的应用程序时 - 它工作正常，并且在预测模式分类器中正确分类测试文档，但是当我尝试以独立模式启动它时 - 我遇到了一些麻烦 -

当我在一台机器上启动主节点和工作节点时 - 应用程序正常工作，但预测结果比本地模式更差。当我在一台机器上启动 master 并在另一台机器上启动 worker - 应用程序崩溃并出现以下错误：

在日志中我发现：

我调试了应用程序，发现它在这段代码之后崩溃了：

也许有人知道发生了什么？

谢谢你。

PS 我在 Windows 7 64 位上使用 Spark 1.1.0。两台机器都有 8 核 CPU 和 16 GB RAM。

apache-spark apache-spark-mllib tf-idf

0 投票

2 回答

1536 浏览

java - 在 Spark MLlib 上使用来自 Java 的 Breeze

在尝试从 Java 中使用 MLlib 时，使用微风矩阵操作的正确方法是什么？例如，scala 中的乘法它只是“ matrix * vector”。Java中对应的功能是如何表达的？

有像“ $colon$times”这样的方法可以通过正确的方式调用

可能需要一个运算符实例...breeze.linalg.operators.OpMulMatrix.Impl2 但是要使用哪个确切类型的 Operation 实例和参数？

java scala apache-spark apache-spark-mllib scala-breeze

0 投票

1 回答

363 浏览

apache-spark - Spark在独立集群上的应用效率低下

我正在尝试在独立集群上运行 spark 应用程序。在这个应用程序中，我使用 tf-idf 向量训练朴素贝叶斯分类器。

我以与这篇文章类似的方式编写了应用程序（LogisticRegression 的 Spark MLLib TFIDF 实现）。主要区别在于，我对每个文档进行标记化和规范化：

parsingFunction 没有任何 Spark 函数，如 map 或 flatMap 等。因此它不包含任何数据分布函数。

我的集群是 - 一台主机和另外两台机器 - 节点。所有机器都有 8 核 CPU 和 16 GB RAM。我正在尝试在 20 个文本文件（每个 ~ 100 KB - 1.5 MB）上训练分类器。我不使用分布式文件系统并将文件直接放入节点。

问题是我的集群没有我想象的那么快 - 分类器训练了大约 5 分钟......在本地模式下，这个操作花费的时间要少得多。

我应该注意什么？

我会很感激任何建议。

谢谢你！

apache-spark apache-spark-mllib

0 投票

1 回答

517 浏览

java - 如何在 web 项目中使用 spark mllib

我正在尝试mllib.jar在 web 项目中使用 spark。我下载spark-1.1.0-bin-hadoop2.4并解压缩。找到一些jar如下：

数据核-api-jdi-3.2.1.jar

datanucleus-core-3.2.2.jar

数据核-rdbms-3.2.1.jar

spark-assembly-1.1.0-hadoop2.4.0.jar

spark-examples-1.1.0-hadoop2.4.0.jar

然后我用spark-assembly-1.1.0-hadoop2.4.0.jar导入分类的方法。它可以在java项目中成功运行。但是，当我将 jar 添加到时SomeWebProject/web-inf/lib，会出现错误消息：

我知道这是因为我的 web 项目 javax.servlet 类与 spark jar 重复。我尝试删除 spark 的javax.servlet. 它仍然无法正常工作。

你能告诉我怎么解决吗

和

我可以使用其他 spark jarmllib在本地模式下运行吗？这个罐子太大了，差不多了132 mb，我认为其中一些没用。但我找不到任何其他可用的罐子。这个 jar 是唯一的导入方式spark-mllib.jar吗？ps 由于某些原因，我无法在我的服务器中部署 spark。所以我不能使用hadoop环境

非常感谢！！！

java hadoop apache-spark apache-spark-mllib

0 投票

2 回答

1116 浏览

scala - 使用 MLlib 从 Spark 的决策树中查找重要性值

我们正在使用 MLlib 为决策树运行 Spark 1.0 或 1.1。

当我使用示例数据运行示例 SCALA 代码时，它可以正常工作，但我无法从结果中找到特征重要性。

有人有关于如何获取值的信息吗？

scala apache-spark decision-tree apache-spark-mllib

问题标签 [apache-spark-mllib]

Reference