问题标签 [apache-spark-1.5]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
625 浏览

scala - 运行“./bin/spark-shell”时初始化 SparkContext 时出错

我正在使用spark-1.5.2with scala-2.11.7,在成功构建 with 后,sbt/sbt assembly当我运行时./bin/spark-shell出现以下错误。

Spark-shell 成功启动SparkContext但未创建。

有谁知道如何处理 Akka Jar 版本不匹配?

0 投票
0 回答
43 浏览

apache-spark - 反序列化时间异常长

我正在对缓存在内存中的 rdd 执行 mapPartitions,然后执行 reduce。这是我的代码片段

rdd 缓存在内存中。我使用 20 个执行器,每个执行器有 1 个核心。缓存的 rdd 有 60 个块。问题是每运行 2-3 次作业,就会有一个反序列化时间异常长的任务。附上截图

在此处输入图像描述

这些是任务 4 的指标。任务 4 是表中的底行 在此处输入图像描述

这种行为的原因可能是什么?

PS - 1. 在所有情况下我都没有得到这种行为。我做了很多相同的工作,我在大约 40% 的情况下得到了这种行为

运行的 Spark 日志 - http://pastebin.com/jnqTzPXS

0 投票
3 回答
4263 浏览

scala - 如何在 Spark 1.5 中转置数据帧(没有可用的枢轴运算符)?

我想使用没有 Pivot 函数的 spark scala 转置下表

我使用的是 Spark 1.5.1,而 Pivot 功能在 1.5.1 中不支持。请建议合适的方法来转置下表:

输出表:

以下代码不起作用,因为我使用的是 Spark 1.5.1,Spark 1.6 提供了数据透视函数:

0 投票
0 回答
907 浏览

apache-spark - spark HiveContext 无法识别 Hive 表的字段分隔符

我创建了一个配置单元外部表,存储为按 event_date 日期分区的文本文件。

从 Hive 表中读取 spark 时,我们如何指定特定格式的 csv?

环境是

斯卡拉脚本

蜂巢表

看着hdfs

PS如果我们将表存储为orc,它会按预期写入和读取数据。

如果“字段终止于”是默认的,那么 Spark 可以按预期读取数据,因此我猜这将是一个错误。

0 投票
1 回答
1108 浏览

scala - 无法在 Spark 中使用来自 HDFS 的文件

我已经下载了 Spark-1.6.1 版本。它已经为我的 hadoop 2.6 版本构建了,所以我只需要解压缩它并且永远不会弄乱构建的工具。在我写的 core-site.xml 文件中

然后我上传了一个名为 LICENSE 的 txt 文件。

当我在 scala 命令行中编写时

我得到:

我应该从一开始就手动构建火花吗?

0 投票
3 回答
14938 浏览

apache-spark - Spark 作业执行时间

这可能是一个非常简单的问题。但是有没有什么简单的方法来测量 spark 作业的执行时间(使用提交spark-submit)?

它将帮助我们根据输入数据的大小来分析 Spark 作业。

编辑:我http://[driver]:4040用来监控我的工作,但这个 Web UI 在我的工作完成时关闭。

0 投票
0 回答
31 浏览

apache-spark - Spark SQL like 使用 sqlContext select 不返回结果 spark 版本 1.5.1/1.5.2

似乎带有 hive 的 spark sql 不支持“sql like”。这是我在 spark-shell 中用于测试的示例代码

它不会显示任何结果。我检查了 sqlContext 它是 hiveContext

scala> sqlContext
res15: org.apache.spark.sql.SQLContext =org.apache.spark.sql.hive.HiveContext@4f03729f

有谁知道为什么?

0 投票
1 回答
725 浏览

apache-spark - 自定义数据源的自动火花模式推断

我正在为自定义数据源(属性文件)实现 spark(1.5.2) sql RelationProvider。

有人可以解释一下应该如何实现自动推理算法吗?

0 投票
1 回答
1257 浏览

apache-spark - 如何使用 CrossValidator 获得 Precision/Recall 以使用 Spark 训练 NaiveBayes 模型

假设我有这样的管道:

如您所见,我使用 MultiClassClassificationEvaluator 定义了 CrossValidator。我已经看到很多示例在测试过程中获取诸如 Precision/Recall 之类的指标,但是当您使用不同的数据集进行测试时会获得这些指标(例如,请参见本文档)。

据我了解,CrossValidator 将创建折叠,其中一个折叠将用于测试目的,然后 CrossValidator 将选择最佳模型。我的问题是,是否有可能在训练过程中获得 Precision/Recall 指标?

0 投票
0 回答
48 浏览

apache-spark - 为什么我们在使用 CrossValidator 时不能定义自己的折叠?

我一直在使用交叉验证过程来训练朴素贝叶斯模型,并且我意识到它使用kFold方法来获取随机采样数据以创建折叠。这个方法返回一个Array[(RDD[T], RDD[T])]元组,我认为它是用于训练和测试的不同折叠组合的集合。

我的问题是是否有任何具体原因,因为 API 不允许您定义自己的折叠数组。我需要这个功能,我猜我必须编写自己的 CrossValidator 类才能支持该功能。我也愿意接受建议。