问题标签 [spark-jobserver]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

163 问题

0 投票

1 回答

833 浏览

apache-spark - 使用 Spark 作业服务器的 Spark SQL 作业中的错误“此上下文的作业类型无效”

我使用 spark 作业服务器创建了一个 spark SQL 作业，并按照以下示例使用 HiveContext： https ://github.com/spark-jobserver/spark-jobserver/blob/master/job-server-extras/src/spark.jobserver/ HiveTestJob.scala

我能够启动服务器，但是当我运行我的应用程序（我的扩展 SparkSqlJob 的 Scala 类）时，我得到以下响应：

任何人都可以建议我出了什么问题或提供为 SparkSQL 设置作业服务器的详细过程吗？

代码如下：

2016-01-27T08:47:52.947

0 投票

3 回答

451 浏览

apache-spark - 在 YARN 上设置 Spark 作业服务器

我正在尝试在我正在做的 YARN 上设置 spark 作业服务器

这会在/tmp/jobserver 我尝试时创建一个文件夹./sever_start.sh

我收到此错误

试过缩小版的akka没有效果有什么建议吗？

apache-spark hadoop-yarn spark-jobserver

2016-01-27T15:41:48.770

0 投票

0 回答

370 浏览

hadoop - Spark 作业服务器未完成 YARN 进程

我已将 Spark 作业服务器配置为在 YARN 上运行。我可以将火花作业发送到 YARN，但即使在作业完成后它也不会在 YARN 上退出

例如：我试图制作一个简单的火花上下文。上下文反映在作业服务器中，但 YARN 仍在运行该进程并且没有停止我必须手动终止任务。

纱线工作

火花上下文

作业服务器反映了上下文，但是一旦我尝试在其中运行任何任务，作业服务器就会给我一个错误

我的 Spark UI 也不是很有帮助

hadoop apache-spark mapreduce hadoop-yarn spark-jobserver

2016-01-28T08:44:06.300

0 投票

1 回答

96 浏览

apache-spark - 在 SparkJobServer 上缓存 MLlib 模型

有人可以告诉我如何在 SparkServer 上下文中持久化命名对象吗？我知道有这种可能性，但我还没有找到解决方案。

提前非常感谢！

apache-spark spark-jobserver

2016-01-28T14:42:34.880

0 投票

0 回答

78 浏览

hadoop - 代理 Spark 作业服务器引发的异常

我正在尝试在多节点服务器上运行 Spark Job 服务器。

我在名称节点上设置了 master="yarn-client"

当我运行 server_start.sh 时出现 Error: Exception thrown by the agent : java.lang.NullPointerException 错误由于使用了端口，错误不会出现。8090 端口是免费的

hadoop apache-spark hadoop-yarn spark-jobserver

2016-01-29T08:41:05.643

0 投票

1 回答

137 浏览

spark-jobserver - spark-jobserver - 管理多个 EMR 集群

我有一个由多个（持久和临时）EMR Spark 集群组成的生产环境。

我想使用一个实例spark-jobserver来管理这个环境的作业 JAR，并且能够master在 I 时指定预期的权限POST /jobs，而不是永久地在配置文件中（使用master = "local[4]"配置密钥）。

显然我更喜欢spark-jobserver在独立机器上运行，而不是在任何masters.

这有可能吗？

spark-jobserver

2016-02-04T16:43:39.670

0 投票

2 回答

389 浏览

apache-spark - 使用带有 NamedRddSupport 的 SparkJob 时出错

目标是在 Spark JobServer 的本地实例上创建以下内容：

问题：如何解决每个作业中发生的以下错误：

Spark JobServer 更详细的错误描述：

如果有人想查看代码：

版本信息：Spark 是 1.5.0 - SparkJobServer 是最新版本

提前非常感谢大家！

apache-spark spark-jobserver

2016-02-10T14:35:45.907

0 投票

1 回答

1089 浏览

scala - 在 Spark Job Server 中持久化/共享 RDD

我希望持久化来自 Spark 作业的 RDD，以便使用 Spark 作业服务器的所有后续作业都可以使用它。这是我尝试过的：

工作一：

工作2：

我得到的错误是：

请修改上面的代码，以便to_be_persisted可以访问。谢谢

编辑：

在使用以下方法编译和打包 scala 源代码后，创建了 spark 上下文：

调用 FirstJob 和 NextJob 使用：

scala apache-spark spark-jobserver

2016-02-26T21:50:17.017

0 投票

0 回答

199 浏览

apache-spark - 使用独立 Spark 集群上的 Spark-Job-Server 增加缓存 RDD（DataFrame）的查询并行能力

首先，我们的独立 Spark 集群由 20 个节点组成，每个节点有 40 个核心和 128G 内存（包括 2 个主节点）。

1.我们使用Spark-Job-Server来重用Spark-Context（在核心中，我们要重用缓存的RDD进行查询），当我们将Spark执行器内存设置为每个节点33G并在DataFrame上执行SQL如“ select * from tablename limit 10"，则结果将是格式错误的 UTF-8 样式，应用程序无法解析。

但是如果我们将executor-memory设置在32G以下，那么结果就很好了。在更改内存时，我们保持其余设置不变。

谁能很好地了解 Spark 和 Spark-Job-Server 告诉我们代码混乱的原因？是因为太多的内存导致了我们将结果乱码编码的原因吗？

2. 第二件事是在我们的用户案例中更具体的事情。我们将 60G 数据加载到 mem 中并使用纯内存存储级别将其持久化，数据实际上是一个结构化的表，我们将对其进行一些查询。然后我们在我们缓存的60G RDD（注册为DataFrame）上尝试了Spark SQL，具体来说，并行执行“从tableName where条件子句中选择列”之类的几个查询，导致OOM异常。

我们真的想增加当前集群的查询并行度。谁能给我们一些提示或一些信息来帮助我们解决并行性要求。

apache-spark spark-jobserver

2016-03-09T16:16:43.853

0 投票

1 回答

575 浏览

java - 在 spark-jobserver 上运行基于 Java 的 Spark 作业

我需要spark-jobserver使用低延迟上下文运行聚合 Spark 作业。我有这个 Scala 运行器来运行使用 Java 类中的 Java 方法的作业。

但是，我收到以下错误。我尝试取出Java方法中返回的内容，现在只是返回一个测试字符串，但它仍然不起作用：

我不太清楚为什么会有超时，因为我只返回一个字符串。

编辑

所以我发现问题的发生是因为我使用的是在更新 JAR 之前创建的 Spark 上下文。但是，现在我尝试在 Spark 作业中使用 JavaSparkContext，它返回到上面显示的错误。

什么是摆脱错误的永久方法。

此外，我在本地 docker 容器上运行繁重的 Spark 作业这一事实是否可能是超时的一个合理原因。

java scala apache-spark spark-jobserver

2016-03-10T22:20:46.430

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-jobserver]

Reference