问题标签 [apache-spark-1.5]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1363 浏览

apache-spark - 如何将 Zeppelin 连接到从源代码构建的 Spark 1.5?

我从 Spark 存储库中提取了最新的源代码并在本地构建。spark-shell它在像or的交互式 shell 中工作得很好spark-sql

现在我想根据这个安装手册将 Zeppelin 连接到我的 Spark 1.5 。我将自定义 Spark 构建发布到本地 maven 存储库,并在 Zeppelin 构建命令中设置自定义 Spark 版本。构建过程成功完成,但是当我尝试在笔记本内部运行基本的东西时sc,它会抛出:

akka.ConfigurationException:Akka JAR 版本 [2.3.11] 与提供的配置版本 [2.3.4] 不匹配

版本 2.3.4 设置在pom.xmland中spark/pom.xml,但简单地更改它们甚至不会让我获得构建。

如果我用标准重建 Zeppelin -Dspark.vesion=1.4.1,一切正常。

0 投票
2 回答
1831 浏览

r - 使用 SparkR 1.5 从 RStudio 中的 hdfs 读取大文件(纯文本、xml、json、csv)的选项

我是 Spark 的新手,想知道除了下面的选项之外,是否还有其他选项可以使用 SparkR 从 RStudio 读取存储在 hdfs 中的数据,或者我是否正确使用它们。数据可以是任何类型(纯文本、csv、json、xml 或任何包含关系表的数据库)和任何大小(1kb - 几个 gb)。

我知道应该不再使用 textFile(sc, path) ,但是除了 read.df 函数之外,还有其他可能读取此类数据吗?

以下代码使用 read.df 和 jsonFile 但 jsonFile 产生错误:

read.df 适用于 json,但我如何读取仅由新行分隔的日志消息等文本?例如

jsonFile 的错误是:

我不知道为什么 read.df 会抛出错误,因为我没有重新启动 SparkR 或调用 SparkR.stop()

对于相同的代码,除了使用 read.df 之外,我使用 SparkR:::textFile 函数和 sc 而不是 sqlContext(遵循 amplab 上过时的介绍

错误信息是:

这个错误看起来路径不正确,但我不知道为什么。

我目前使用的:

spark-1.5.0-bin-hadoop2.6 hadoop-2.6.0 Windows(8.1) R 版本 3.2.2 Rstudio 版本 0.99.484

我希望有人可以在这里给我一些关于这个问题的提示。

0 投票
1 回答
7540 浏览

apache-spark - 将转换后的 DataFrame 保存/导出回 JDBC / MySQL

我试图弄清楚如何使用 newDataFrameWriter将数据写回 JDBC 数据库。我似乎找不到任何文档,尽管查看源代码似乎应该是可能的。

我正在尝试的一个简单示例如下所示:

这不起作用——我最终得到了这个错误:

我不确定我是否做错了什么(例如,为什么它解析为 DefaultSource 而不是 JDBCRDD?),或者如果使用 Spark 的 DataFrames API 无法写入现有的 MySQL 数据库。

0 投票
1 回答
9283 浏览

elasticsearch - 将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常

我设计了一个简单的工作来从 MySQL 读取数据并将其保存在 Spark 的 Elasticsearch 中。

这是代码:

可以看到代码非常简单。它将数据读入 DataFrame,选择一些列,然后count在 Dataframe 上执行 a 作为基本操作。到目前为止一切正常。

然后它尝试将数据保存到 Elasticsearch 中,但它失败了,因为它无法处理某些类型。您可以在此处查看错误日志。

我不确定为什么它不能处理那种类型。有谁知道为什么会这样?

我正在使用 Apache Spark 1.5.0、Elasticsearch 1.4.4 和 elaticsearch-hadoop 2.1.1

编辑:

  • 我已经使用示例数据集以及源代码更新了要点链接。
  • 我还尝试使用@costin 在邮件列表中提到的 elasticsearch -hadoop开发版本。
0 投票
0 回答
447 浏览

apache-spark - Spark UI 的输出列,从不显示任何内容

我正在尝试对来自BigDataBenchmark的查询进行基准测试。这样做时,我正在从 Spark 的 Web UI 收集信息。

我一直在保存结果,但是,通过使用CREATE TABLE results as ...构造隐式保存。我可以验证查询结果数据是否正确保存到 HDFS 中的永久磁盘。但是,我看不到作业/阶段的输出指标(参见图像中的列)的任何值,以下示例用于查询:CREATE TABLE results as SELECT * FROM rankings where pageRank > 1000 输入图片描述

后续调查是查看 Spark 是否无法计算输出,因为这是一个 Hive 查询。所以为了调查,我恢复到本地磁盘输入并保存到本地磁盘。我发布了以下内容:

输出指标仍然为空。

我是否误解了 Spark 的输出意味着什么?

0 投票
0 回答
296 浏览

apache-spark - Spark/GraphX 1.5.0 中工作人员之间的任务分配不均

我有一个很大的边列表作为 5000 个分区 RDD。现在,我正在做一个简单但重洗牌的操作:

这项工作分为 9 个阶段(每个阶段 5000 个任务)。我的集群在同一个本地网络中有 3 个工作人员。尽管 Spark 1.5.0 运行速度更快,并且前几个阶段在满负载下运行,但从一个阶段mapPartitions at GraphImpl.scala:235(任务一直RUNNING持续到实际工作的一台机器完成所有工作。有趣的是,在 Spark 1.3.1 上,所有阶段的任务在集群机器之间平均分配。我怀疑这可能是 1.5.0 中的错误

UPD:似乎问题与数据无关:我随机生成了一个高度同质的图(每个顶点的度数为 5)并观察到相同的行为。所以这要么是一个奇怪的硬件问题,要么是与钨相关的问题。仍然没有确切的答案

0 投票
1 回答
3324 浏览

apache-spark - Spark 1.5.0 spark.app.id 警告

我已经更新了我的 CDH 集群以使用spark 1.5.0. 当我提交火花申请时,系统显示警告spark.app.id

我已经搜索过spark.app.id但没有关于它的文档。我读了这个链接,我认为它用于 RestAPI 调用。

我在 中没有看到这个警告spark 1.4。有人可以向我解释一下并展示如何设置吗?

0 投票
4 回答
2637 浏览

scala - sbt-assembly:合并错误 - 去重

我使用sbt assembly.

我正在使用 Spark,这似乎是这个问题的根源。

错误:

我在这里尝试了所有推荐的解决方案,但没有成功。

sbt-assembly:发现重复数据删除错误

去重 commons-validator - sbt 程序集

spark + sbt-assembly:“去重:在下面找到不同的文件内容”

0 投票
1 回答
1307 浏览

apache-spark - 在 Spark 中同时对多个 RDD 执行操作/转换

我正在编写 Spark 应用程序(单客户端)并处理许多我想在其上运行算法的小文件。他们每个人都使用相同的算法。但是不能将文件加载到同一个 RDD 中以使算法起作用,因为它应该在一个文件边界内对数据进行排序。
今天我一次处理一个文件,结果我的资源利用率很低(每个操作的数据量很小,开销很大)
有没有办法同时对多个 RDD 执行相同的操作/转换(并且只使用一个驱动程序)?还是我应该寻找另一个平台?因为这种操作模式对于 Spark 来说并不是经典的。

0 投票
3 回答
2847 浏览

scala - 如何使用 Intellij Idea 使用 Apache Spark?

我想知道使用 Intellij Idea 使用 Apache Spark 的最佳方式是什么?(特别适用于 Scala 编程语言)

如果可以,请逐步解释。

感谢您的回答