“apache-spark-1.5”的相关标签问题

0 投票

1 回答

1363 浏览

apache-spark - 如何将 Zeppelin 连接到从源代码构建的 Spark 1.5？

我从 Spark 存储库中提取了最新的源代码并在本地构建。spark-shell它在像or的交互式 shell 中工作得很好spark-sql。

现在我想根据这个安装手册将 Zeppelin 连接到我的 Spark 1.5 。我将自定义 Spark 构建发布到本地 maven 存储库，并在 Zeppelin 构建命令中设置自定义 Spark 版本。构建过程成功完成，但是当我尝试在笔记本内部运行基本的东西时sc，它会抛出：

akka.ConfigurationException：Akka JAR 版本 [2.3.11] 与提供的配置版本 [2.3.4] 不匹配

版本 2.3.4 设置在pom.xmland中spark/pom.xml，但简单地更改它们甚至不会让我获得构建。

如果我用标准重建 Zeppelin -Dspark.vesion=1.4.1，一切正常。

2015-08-30T07:28:50.657

0 投票

2 回答

1831 浏览

r - 使用 SparkR 1.5 从 RStudio 中的 hdfs 读取大文件（纯文本、xml、json、csv）的选项

我是 Spark 的新手，想知道除了下面的选项之外，是否还有其他选项可以使用 SparkR 从 RStudio 读取存储在 hdfs 中的数据，或者我是否正确使用它们。数据可以是任何类型（纯文本、csv、json、xml 或任何包含关系表的数据库）和任何大小（1kb - 几个 gb）。

我知道应该不再使用 textFile(sc, path) ，但是除了 read.df 函数之外，还有其他可能读取此类数据吗？

以下代码使用 read.df 和 jsonFile 但 jsonFile 产生错误：

read.df 适用于 json，但我如何读取仅由新行分隔的日志消息等文本？例如

jsonFile 的错误是：

我不知道为什么 read.df 会抛出错误，因为我没有重新启动 SparkR 或调用 SparkR.stop()

对于相同的代码，除了使用 read.df 之外，我使用 SparkR:::textFile 函数和 sc 而不是 sqlContext（遵循 amplab 上过时的介绍）。

错误信息是：

这个错误看起来路径不正确，但我不知道为什么。

我目前使用的：

spark-1.5.0-bin-hadoop2.6 hadoop-2.6.0 Windows(8.1) R 版本 3.2.2 Rstudio 版本 0.99.484

我希望有人可以在这里给我一些关于这个问题的提示。

r sparkr apache-spark-1.5

2015-09-15T12:07:12.447

0 投票

1 回答

7540 浏览

apache-spark - 将转换后的 DataFrame 保存/导出回 JDBC / MySQL

我试图弄清楚如何使用 newDataFrameWriter将数据写回 JDBC 数据库。我似乎找不到任何文档，尽管查看源代码似乎应该是可能的。

我正在尝试的一个简单示例如下所示：

这不起作用——我最终得到了这个错误：

我不确定我是否做错了什么（例如，为什么它解析为 DefaultSource 而不是 JDBCRDD？），或者如果使用 Spark 的 DataFrames API 无法写入现有的 MySQL 数据库。

apache-spark apache-spark-sql apache-spark-1.5

2015-09-16T23:06:29.030

0 投票

1 回答

9283 浏览

elasticsearch - 将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常

我设计了一个简单的工作来从 MySQL 读取数据并将其保存在 Spark 的 Elasticsearch 中。

这是代码：

可以看到代码非常简单。它将数据读入 DataFrame，选择一些列，然后count在 Dataframe 上执行 a 作为基本操作。到目前为止一切正常。

然后它尝试将数据保存到 Elasticsearch 中，但它失败了，因为它无法处理某些类型。您可以在此处查看错误日志。

我不确定为什么它不能处理那种类型。有谁知道为什么会这样？

我正在使用 Apache Spark 1.5.0、Elasticsearch 1.4.4 和 elaticsearch-hadoop 2.1.1

编辑：

我已经使用示例数据集以及源代码更新了要点链接。
我还尝试使用@costin 在邮件列表中提到的 elasticsearch -hadoop开发版本。

elasticsearch apache-spark elasticsearch-hadoop apache-spark-1.5

2015-09-19T10:21:57.947

0 投票

0 回答

447 浏览

apache-spark - Spark UI 的输出列，从不显示任何内容

我正在尝试对来自BigDataBenchmark的查询进行基准测试。这样做时，我正在从 Spark 的 Web UI 收集信息。

我一直在保存结果，但是，通过使用CREATE TABLE results as ...构造隐式保存。我可以验证查询结果数据是否正确保存到 HDFS 中的永久磁盘。但是，我看不到作业/阶段的输出指标（参见图像中的列）的任何值，以下示例用于查询：CREATE TABLE results as SELECT * FROM rankings where pageRank > 1000

后续调查是查看 Spark 是否无法计算输出，因为这是一个 Hive 查询。所以为了调查，我恢复到本地磁盘输入并保存到本地磁盘。我发布了以下内容：

输出指标仍然为空。

我是否误解了 Spark 的输出意味着什么？

apache-spark apache-spark-sql apache-spark-1.5

2015-09-20T12:28:44.660

0 投票

0 回答

296 浏览

apache-spark - Spark/GraphX 1.5.0 中工作人员之间的任务分配不均

我有一个很大的边列表作为 5000 个分区 RDD。现在，我正在做一个简单但重洗牌的操作：

这项工作分为 9 个阶段（每个阶段 5000 个任务）。我的集群在同一个本地网络中有 3 个工作人员。尽管 Spark 1.5.0 运行速度更快，并且前几个阶段在满负载下运行，但从一个阶段mapPartitions at GraphImpl.scala:235(任务一直RUNNING持续到实际工作的一台机器完成所有工作。有趣的是，在 Spark 1.3.1 上，所有阶段的任务在集群机器之间平均分配。我怀疑这可能是 1.5.0 中的错误

UPD：似乎问题与数据无关：我随机生成了一个高度同质的图（每个顶点的度数为 5）并观察到相同的行为。所以这要么是一个奇怪的硬件问题，要么是与钨相关的问题。仍然没有确切的答案

apache-spark spark-graphx apache-spark-1.5

2015-09-22T11:11:45.750

0 投票

1 回答

3324 浏览

apache-spark - Spark 1.5.0 spark.app.id 警告

我已经更新了我的 CDH 集群以使用spark 1.5.0. 当我提交火花申请时，系统显示警告spark.app.id

我已经搜索过spark.app.id但没有关于它的文档。我读了这个链接，我认为它用于 RestAPI 调用。

我在中没有看到这个警告spark 1.4。有人可以向我解释一下并展示如何设置吗？

apache-spark apache-spark-1.5

2015-09-26T03:16:24.160

0 投票

4 回答

2637 浏览

scala - sbt-assembly：合并错误 - 去重

我使用sbt assembly.

我正在使用 Spark，这似乎是这个问题的根源。

错误：

我在这里尝试了所有推荐的解决方案，但没有成功。

sbt-assembly：发现重复数据删除错误

去重 commons-validator - sbt 程序集

spark + sbt-assembly：“去重：在下面找到不同的文件内容”

scala apache-spark sbt sbt-assembly apache-spark-1.5

2015-09-30T06:36:12.830

0 投票

1 回答

1307 浏览

apache-spark - 在 Spark 中同时对多个 RDD 执行操作/转换

我正在编写 Spark 应用程序（单客户端）并处理许多我想在其上运行算法的小文件。他们每个人都使用相同的算法。但是不能将文件加载到同一个 RDD 中以使算法起作用，因为它应该在一个文件边界内对数据进行排序。
今天我一次处理一个文件，结果我的资源利用率很低（每个操作的数据量很小，开销很大）
有没有办法同时对多个 RDD 执行相同的操作/转换（并且只使用一个驱动程序）？还是我应该寻找另一个平台？因为这种操作模式对于 Spark 来说并不是经典的。

apache-spark pyspark rdd apache-spark-1.5

2015-10-01T13:31:26.237

0 投票

3 回答

2847 浏览

scala - 如何使用 Intellij Idea 使用 Apache Spark？

我想知道使用 Intellij Idea 使用 Apache Spark 的最佳方式是什么？（特别适用于 Scala 编程语言）

如果可以，请逐步解释。

感谢您的回答

scala intellij-idea apache-spark scala-2.10 apache-spark-1.5

2015-10-02T05:07:52.257

问题标签 [apache-spark-1.5]

Reference