问题标签 [apache-spark-1.5]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

45 问题

0 投票

0 回答

625 浏览

scala - 运行“./bin/spark-shell”时初始化 SparkContext 时出错

我正在使用spark-1.5.2with scala-2.11.7，在成功构建 with 后，sbt/sbt assembly当我运行时./bin/spark-shell出现以下错误。

Spark-shell 成功启动SparkContext但未创建。

有谁知道如何处理 Akka Jar 版本不匹配？

scala akka apache-spark-1.5

2016-02-10T14:20:21.200

0 投票

0 回答

43 浏览

apache-spark - 反序列化时间异常长

我正在对缓存在内存中的 rdd 执行 mapPartitions，然后执行 reduce。这是我的代码片段

rdd 缓存在内存中。我使用 20 个执行器，每个执行器有 1 个核心。缓存的 rdd 有 60 个块。问题是每运行 2-3 次作业，就会有一个反序列化时间异常长的任务。附上截图

这些是任务 4 的指标。任务 4 是表中的底行

这种行为的原因可能是什么？

PS - 1. 在所有情况下我都没有得到这种行为。我做了很多相同的工作，我在大约 40% 的情况下得到了这种行为

运行的 Spark 日志 - http://pastebin.com/jnqTzPXS

apache-spark apache-spark-1.5

2016-02-16T09:00:54.827

0 投票

3 回答

4263 浏览

scala - 如何在 Spark 1.5 中转置数据帧（没有可用的枢轴运算符）？

我想使用没有 Pivot 函数的 spark scala 转置下表

我使用的是 Spark 1.5.1，而 Pivot 功能在 1.5.1 中不支持。请建议合适的方法来转置下表：

输出表：

以下代码不起作用，因为我使用的是 Spark 1.5.1，Spark 1.6 提供了数据透视函数：

scala apache-spark apache-spark-sql apache-spark-1.5

2016-03-25T07:26:51.867

0 投票

0 回答

907 浏览

apache-spark - spark HiveContext 无法识别 Hive 表的字段分隔符

我创建了一个配置单元外部表，存储为按 event_date 日期分区的文本文件。

从 Hive 表中读取 spark 时，我们如何指定特定格式的 csv？

环境是

斯卡拉脚本

蜂巢表

看着hdfs

PS如果我们将表存储为orc，它会按预期写入和读取数据。

如果“字段终止于”是默认的，那么 Spark 可以按预期读取数据，因此我猜这将是一个错误。

apache-spark apache-spark-sql apache-spark-1.5 hivecontext spark-hive

2016-03-25T08:51:55.283

0 投票

1 回答

1108 浏览

scala - 无法在 Spark 中使用来自 HDFS 的文件

我已经下载了 Spark-1.6.1 版本。它已经为我的 hadoop 2.6 版本构建了，所以我只需要解压缩它并且永远不会弄乱构建的工具。在我写的 core-site.xml 文件中

然后我上传了一个名为 LICENSE 的 txt 文件。

当我在 scala 命令行中编写时

我得到：

我应该从一开始就手动构建火花吗？

scala hadoop apache-spark apache-spark-1.5

2016-04-27T14:28:19.723

0 投票

3 回答

14938 浏览

apache-spark - Spark 作业执行时间

这可能是一个非常简单的问题。但是有没有什么简单的方法来测量 spark 作业的执行时间（使用提交spark-submit）？

它将帮助我们根据输入数据的大小来分析 Spark 作业。

编辑：我http://[driver]:4040用来监控我的工作，但这个 Web UI 在我的工作完成时关闭。

apache-spark apache-spark-mllib apache-spark-1.5

2016-04-30T00:28:45.803

0 投票

0 回答

31 浏览

apache-spark - Spark SQL like 使用 sqlContext select 不返回结果 spark 版本 1.5.1/1.5.2

似乎带有 hive 的 spark sql 不支持“sql like”。这是我在 spark-shell 中用于测试的示例代码

它不会显示任何结果。我检查了 sqlContext 它是 hiveContext

scala> sqlContext
res15: org.apache.spark.sql.SQLContext =org.apache.spark.sql.hive.HiveContext@4f03729f

有谁知道为什么？

apache-spark apache-spark-sql spark-dataframe apache-spark-1.5

2016-04-30T16:49:05.200

0 投票

1 回答

725 浏览

apache-spark - 自定义数据源的自动火花模式推断

我正在为自定义数据源（属性文件）实现 spark(1.5.2) sql RelationProvider。

有人可以解释一下应该如何实现自动推理算法吗？

apache-spark apache-spark-sql apache-spark-1.5

2016-05-31T12:49:56.607

0 投票

1 回答

1257 浏览

apache-spark - 如何使用 CrossValidator 获得 Precision/Recall 以使用 Spark 训练 NaiveBayes 模型

假设我有这样的管道：

如您所见，我使用 MultiClassClassificationEvaluator 定义了 CrossValidator。我已经看到很多示例在测试过程中获取诸如 Precision/Recall 之类的指标，但是当您使用不同的数据集进行测试时会获得这些指标（例如，请参见本文档）。

据我了解，CrossValidator 将创建折叠，其中一个折叠将用于测试目的，然后 CrossValidator 将选择最佳模型。我的问题是，是否有可能在训练过程中获得 Precision/Recall 指标？

apache-spark apache-spark-mllib apache-spark-ml apache-spark-1.5

2016-06-12T19:59:31.297

0 投票

0 回答

48 浏览

apache-spark - 为什么我们在使用 CrossValidator 时不能定义自己的折叠？

我一直在使用交叉验证过程来训练朴素贝叶斯模型，并且我意识到它使用kFold方法来获取随机采样数据以创建折叠。这个方法返回一个Array[(RDD[T], RDD[T])]元组，我认为它是用于训练和测试的不同折叠组合的集合。

我的问题是是否有任何具体原因，因为 API 不允许您定义自己的折叠数组。我需要这个功能，我猜我必须编写自己的 CrossValidator 类才能支持该功能。我也愿意接受建议。

apache-spark apache-spark-mllib cross-validation apache-spark-1.5

2016-06-16T20:42:16.873

1 2 3 4 5 6 7 8 9 10