问题标签 [spark-jobserver]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
833 浏览

apache-spark - 使用 Spark 作业服务器的 Spark SQL 作业中的错误“此上下文的作业类型无效”

我使用 spark 作业服务器创建了一个 spark SQL 作业,并按照以下示例使用 HiveContext: https ://github.com/spark-jobserver/spark-jobserver/blob/master/job-server-extras/src/spark.jobserver/ HiveTestJob.scala

我能够启动服务器,但是当我运行我的应用程序(我的扩展 SparkSqlJob 的 Scala 类)时,我得到以下响应:

任何人都可以建议我出了什么问题或提供为 SparkSQL 设置作业服务器的详细过程吗?

代码如下:

0 投票
3 回答
451 浏览

apache-spark - 在 YARN 上设置 Spark 作业服务器

我正在尝试在我正在做的 YARN 上设置 spark 作业服务器

这会在/tmp/jobserver 我尝试时创建一个文件夹./sever_start.sh

我收到此错误

试过缩小版的akka​​没有效果有什么建议吗?

0 投票
0 回答
370 浏览

hadoop - Spark 作业服务器未完成 YARN 进程

我已将 Spark 作业服务器配置为在 YARN 上运行。我可以将火花作业发送到 YARN,但即使在作业完成后它也不会在 YARN 上退出

例如:我试图制作一个简单的火花上下文。上下文反映在作业服务器中,但 YARN 仍在运行该进程并且没有停止我必须手动终止任务。

纱线工作

纱线工作

火花上下文 火花上下文

作业服务器反映了上下文,但是一旦我尝试在其中运行任何任务,作业服务器就会给我一个错误

我的 Spark UI 也不是很有帮助

火花界面

0 投票
1 回答
96 浏览

apache-spark - 在 SparkJobServer 上缓存 MLlib 模型

有人可以告诉我如何在 SparkServer 上下文中持久化命名对象吗?我知道有这种可能性,但我还没有找到解决方案。

提前非常感谢!

0 投票
0 回答
78 浏览

hadoop - 代理 Spark 作业服务器引发的异常

我正在尝试在多节点服务器上运行 Spark Job 服务器。

我在名称节点上设置了 master="yarn-client"

当我运行 server_start.sh 时出现 Error: Exception thrown by the agent : java.lang.NullPointerException 错误由于使用了端口,错误不会出现。8090 端口是免费的

0 投票
1 回答
137 浏览

spark-jobserver - spark-jobserver - 管理多个 EMR 集群

我有一个由多个(持久和临时)EMR Spark 集群组成的生产环境。

我想使用一个实例spark-jobserver来管理这个环境的作业 JAR,并且能够master在 I 时指定预期的权限POST /jobs,而不是永久地在配置文件中(使用master = "local[4]"配置密钥)。

显然我更喜欢spark-jobserver在独立机器上运行,而不是在任何masters.

这有可能吗?

0 投票
2 回答
389 浏览

apache-spark - 使用带有 NamedRddSupport 的 SparkJob 时出错

目标是在 Spark JobServer 的本地实例上创建以下内容:

问题:如何解决每个作业中发生的以下错误:

Spark JobServer 更详细的错误描述:

如果有人想查看代码:

版本信息:Spark 是 1.5.0 - SparkJobServer 是最新版本

提前非常感谢大家!

0 投票
1 回答
1089 浏览

scala - 在 Spark Job Server 中持久化/共享 RDD

我希望持久化来自 Spark 作业的 RDD,以便使用 Spark 作业服务器的所有后续作业都可以使用它。这是我尝试过的:

工作一:

工作2:

我得到的错误是:

请修改上面的代码,以便to_be_persisted可以访问。谢谢

编辑:

在使用以下方法编译和打包 scala 源代码后,创建了 spark 上下文:

调用 FirstJob 和 NextJob 使用:

0 投票
0 回答
199 浏览

apache-spark - 使用独立 Spark 集群上的 Spark-Job-Server 增加缓存 RDD(DataFrame)的查询并行能力

首先,我们的独立 Spark 集群由 20 个节点组成,每个节点有 40 个核心和 128G 内存(包括 2 个主节点)。

1.我们使用Spark-Job-Server来重用Spark-Context(在核心中,我们要重用缓存的RDD进行查询),当我们将Spark执行器内存设置为每个节点33G并在DataFrame上执行SQL如“ select * from tablename limit 10",则结果将是格式错误的 UTF-8 样式,应用程序无法解析。

但是如果我们将executor-memory设置在32G以下,那么结果就很好了。在更改内存时,我们保持其余设置不变。

谁能很好地了解 Spark 和 Spark-Job-Server 告诉我们代码混乱的原因?是因为太多的内存导致了我们将结果乱码编码的原因吗?

2. 第二件事是在我们的用户案例中更具体的事情。我们将 60G 数据加载到 mem 中并使用纯内存存储级别将其持久化,数据实际上是一个结构化的表,我们将对其进行一些查询。然后我们在我们缓存的60G RDD(注册为DataFrame)上尝试了Spark SQL,具体来说,并行执行“从tableName where条件子句中选择列”之类的几个查询,导致OOM异常。

我们真的想增加当前集群的查询并行度。谁能给我们一些提示或一些信息来帮助我们解决并行性要求。

0 投票
1 回答
575 浏览

java - 在 spark-jobserver 上运行基于 Java 的 Spark 作业

我需要spark-jobserver使用低延迟上下文运行聚合 Spark 作业。我有这个 Scala 运行器来运行使用 Java 类中的 Java 方法的作业。

但是,我收到以下错误。我尝试取出Java方法中返回的内容,现在只是返回一个测试字符串,但它仍然不起作用:

我不太清楚为什么会有超时,因为我只返回一个字符串。

编辑

所以我发现问题的发生是因为我使用的是在更新 JAR 之前创建的 Spark 上下文。但是,现在我尝试在 Spark 作业中使用 JavaSparkContext,它返回到上面显示的错误。

什么是摆脱错误的永久方法。

此外,我在本地 docker 容器上运行繁重的 Spark 作业这一事实是否可能是超时的一个合理原因。