问题标签 [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 使用 Spark KMeans 算法打印 ClusterID 及其元素。
我有这个程序可以在 apache-spark 上打印 Kmeans 算法的 MSSE。生成了 20 个集群。我正在尝试打印 clusterID 和分配给相应 clusterID 的元素。我如何循环 clusterID 以打印元素。
感谢你们!!
apache-spark - 在 Spark 的 MLlib 中访问 Naive Baye 的后验概率
我正在尝试使用 Java 使用 MLlib 访问朴素贝叶预测的后验概率。由于成员变量 brzPi 和 brzTheta 是私有的,我应用了一个 hack 来通过反射访问这些值。
我正在使用 Java,但找不到将微风库与 Java 一起使用的方法。如果我是正确的,相关计算是通过 NaiveBayesModel 类中的第 66 行给出的,
标签(brzArgmax(brzPi + brzTheta * testData.toBreeze))
这里 DenseVectors 的元素加法和乘法作为在 Java 中不能直接访问的运算符给出。此外,对我来说,Java 对 brzArgmax 的使用不是很清楚。
谁能帮我将上述计算从Scala转换为Java。
PS:我已经对 Jira 提出了改进请求,以使这些变量可以从 MLlib 外部直接访问。
谢谢,贾廷
apache-spark - 使用sbt编译时如何在spark中添加依赖?
当我查看 MLLIB 部分的介绍时,我读到以下句子:“要使用来自 netlib-java 的本机库,请使用 -Pnetlib-lgpl 构建 Spark 或包含 com.github.fommil.netlib:all:1.1.2 作为你项目的依赖”因为我是 sbt 的新手,所以我真的不知道如何添加对它的依赖。有人可以给我一些建议吗?事实上,我也不知道如果我忽略依赖关系是否重要谢谢。
scala - 如何在我的代码中使用私有函数[mllib]?
我开始使用 spark,特别是 mllib 库。其中一些函数的范围和私有语句受到限制。如何在我的代码中使用这些函数?示例:KMeans.scala
如果我创建一个扩展 kmeans 的类并尝试使用此函数,我将无法访问它。显示以下错误:
谁能给我一些如何解决这个问题的例子?谢谢并恭祝安康
java - Scala 中的 Spark 代码可以转换为 Java 吗?
我有使用 Apache Spark 的源代码。源代码是用 Scala 编写的,我想将其转换为 Java。
是否可以从所有 Scala 源代码转换为 Java?
apache-spark - 奇怪的 org.apache.spark.SparkException:作业因阶段失败而中止
我正在尝试在独立模式下部署 spark 应用程序。在这个应用程序中,我使用 tf-idf 向量训练朴素贝叶斯分类器。
我以与这篇文章( LogisticRegression 的 Spark MLLib TFIDF 实现)类似的方式编写了应用程序,不同之处在于我获取每个文档,并对其进行标记和规范化。
所以 Document 的每个副本都有 textField 和 labelField,其中包含规范化的文档文本作为字符串列表(单词列表)和 labelField,其中包含文档的标签作为双精度。parsingFunction 没有任何 Spark 函数,如 map 或 flatMap 等。因此它不包含任何数据分布函数。
当我以本地模式启动我的应用程序时 - 它工作正常,并且在预测模式分类器中正确分类测试文档,但是当我尝试以独立模式启动它时 - 我遇到了一些麻烦 -
当我在一台机器上启动主节点和工作节点时 - 应用程序正常工作,但预测结果比本地模式更差。当我在一台机器上启动 master 并在另一台机器上启动 worker - 应用程序崩溃并出现以下错误:
在日志中我发现:
我调试了应用程序,发现它在这段代码之后崩溃了:
也许有人知道发生了什么?
谢谢你。
PS 我在 Windows 7 64 位上使用 Spark 1.1.0。两台机器都有 8 核 CPU 和 16 GB RAM。
java - 在 Spark MLlib 上使用来自 Java 的 Breeze
在尝试从 Java 中使用 MLlib 时,使用微风矩阵操作的正确方法是什么?例如,scala 中的乘法它只是“ matrix * vector
”。Java中对应的功能是如何表达的?
有像“ $colon$times
”这样的方法可以通过正确的方式调用
可能需要一个运算符实例...breeze.linalg.operators.OpMulMatrix.Impl2
但是要使用哪个确切类型的 Operation 实例和参数?
apache-spark - Spark在独立集群上的应用效率低下
我正在尝试在独立集群上运行 spark 应用程序。在这个应用程序中,我使用 tf-idf 向量训练朴素贝叶斯分类器。
我以与这篇文章类似的方式编写了应用程序(LogisticRegression 的 Spark MLLib TFIDF 实现)。主要区别在于,我对每个文档进行标记化和规范化:
parsingFunction 没有任何 Spark 函数,如 map 或 flatMap 等。因此它不包含任何数据分布函数。
我的集群是 - 一台主机和另外两台机器 - 节点。所有机器都有 8 核 CPU 和 16 GB RAM。我正在尝试在 20 个文本文件(每个 ~ 100 KB - 1.5 MB)上训练分类器。我不使用分布式文件系统并将文件直接放入节点。
问题是我的集群没有我想象的那么快 - 分类器训练了大约 5 分钟......在本地模式下,这个操作花费的时间要少得多。
我应该注意什么?
我会很感激任何建议。
谢谢你!
java - 如何在 web 项目中使用 spark mllib
我正在尝试mllib.jar
在 web 项目中使用 spark。我下载spark-1.1.0-bin-hadoop2.4
并解压缩。找到一些jar如下:
数据核-api-jdi-3.2.1.jar
datanucleus-core-3.2.2.jar
数据核-rdbms-3.2.1.jar
spark-assembly-1.1.0-hadoop2.4.0.jar
spark-examples-1.1.0-hadoop2.4.0.jar
然后我用spark-assembly-1.1.0-hadoop2.4.0.jar
导入分类的方法。它可以在java项目中成功运行。但是,当我将 jar 添加到 时SomeWebProject/web-inf/lib
,会出现错误消息:
我知道这是因为我的 web 项目 javax.servlet 类与 spark jar 重复。我尝试删除 spark 的javax.servlet
. 它仍然无法正常工作。
你能告诉我怎么解决吗
和
我可以使用其他 spark jarmllib
在本地模式下运行吗?这个罐子太大了,差不多了132 mb
,我认为其中一些没用。但我找不到任何其他可用的罐子。这个 jar 是唯一的导入方式spark-mllib.jar
吗?ps 由于某些原因,我无法在我的服务器中部署 spark。所以我不能使用hadoop环境
非常感谢!!!
scala - 使用 MLlib 从 Spark 的决策树中查找重要性值
我们正在使用 MLlib 为决策树运行 Spark 1.0 或 1.1。
当我使用示例数据运行示例 SCALA 代码时,它可以正常工作,但我无法从结果中找到特征重要性。
有人有关于如何获取值的信息吗?