问题标签 [spark-jobserver]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 使用 Spark 作业服务器的 Spark SQL 作业中的错误“此上下文的作业类型无效”
我使用 spark 作业服务器创建了一个 spark SQL 作业,并按照以下示例使用 HiveContext: https ://github.com/spark-jobserver/spark-jobserver/blob/master/job-server-extras/src/spark.jobserver/ HiveTestJob.scala
我能够启动服务器,但是当我运行我的应用程序(我的扩展 SparkSqlJob 的 Scala 类)时,我得到以下响应:
任何人都可以建议我出了什么问题或提供为 SparkSQL 设置作业服务器的详细过程吗?
代码如下:
apache-spark - 在 YARN 上设置 Spark 作业服务器
我正在尝试在我正在做的 YARN 上设置 spark 作业服务器
这会在/tmp/jobserver
我尝试时创建一个文件夹./sever_start.sh
我收到此错误
试过缩小版的akka没有效果有什么建议吗?
apache-spark - 在 SparkJobServer 上缓存 MLlib 模型
有人可以告诉我如何在 SparkServer 上下文中持久化命名对象吗?我知道有这种可能性,但我还没有找到解决方案。
提前非常感谢!
hadoop - 代理 Spark 作业服务器引发的异常
我正在尝试在多节点服务器上运行 Spark Job 服务器。
我在名称节点上设置了 master="yarn-client"
当我运行 server_start.sh 时出现
Error: Exception thrown by the agent : java.lang.NullPointerException
错误由于使用了端口,错误不会出现。8090 端口是免费的
spark-jobserver - spark-jobserver - 管理多个 EMR 集群
我有一个由多个(持久和临时)EMR Spark 集群组成的生产环境。
我想使用一个实例spark-jobserver
来管理这个环境的作业 JAR,并且能够master
在 I 时指定预期的权限POST /jobs
,而不是永久地在配置文件中(使用master = "local[4]"
配置密钥)。
显然我更喜欢spark-jobserver
在独立机器上运行,而不是在任何masters
.
这有可能吗?
apache-spark - 使用带有 NamedRddSupport 的 SparkJob 时出错
目标是在 Spark JobServer 的本地实例上创建以下内容:
问题:如何解决每个作业中发生的以下错误:
Spark JobServer 更详细的错误描述:
如果有人想查看代码:
版本信息:Spark 是 1.5.0 - SparkJobServer 是最新版本
提前非常感谢大家!
scala - 在 Spark Job Server 中持久化/共享 RDD
我希望持久化来自 Spark 作业的 RDD,以便使用 Spark 作业服务器的所有后续作业都可以使用它。这是我尝试过的:
工作一:
工作2:
我得到的错误是:
请修改上面的代码,以便to_be_persisted
可以访问。谢谢
编辑:
在使用以下方法编译和打包 scala 源代码后,创建了 spark 上下文:
调用 FirstJob 和 NextJob 使用:
apache-spark - 使用独立 Spark 集群上的 Spark-Job-Server 增加缓存 RDD(DataFrame)的查询并行能力
首先,我们的独立 Spark 集群由 20 个节点组成,每个节点有 40 个核心和 128G 内存(包括 2 个主节点)。
1.我们使用Spark-Job-Server来重用Spark-Context(在核心中,我们要重用缓存的RDD进行查询),当我们将Spark执行器内存设置为每个节点33G并在DataFrame上执行SQL如“ select * from tablename limit 10",则结果将是格式错误的 UTF-8 样式,应用程序无法解析。
但是如果我们将executor-memory设置在32G以下,那么结果就很好了。在更改内存时,我们保持其余设置不变。
谁能很好地了解 Spark 和 Spark-Job-Server 告诉我们代码混乱的原因?是因为太多的内存导致了我们将结果乱码编码的原因吗?
2. 第二件事是在我们的用户案例中更具体的事情。我们将 60G 数据加载到 mem 中并使用纯内存存储级别将其持久化,数据实际上是一个结构化的表,我们将对其进行一些查询。然后我们在我们缓存的60G RDD(注册为DataFrame)上尝试了Spark SQL,具体来说,并行执行“从tableName where条件子句中选择列”之类的几个查询,导致OOM异常。
我们真的想增加当前集群的查询并行度。谁能给我们一些提示或一些信息来帮助我们解决并行性要求。
java - 在 spark-jobserver 上运行基于 Java 的 Spark 作业
我需要spark-jobserver
使用低延迟上下文运行聚合 Spark 作业。我有这个 Scala 运行器来运行使用 Java 类中的 Java 方法的作业。
但是,我收到以下错误。我尝试取出Java方法中返回的内容,现在只是返回一个测试字符串,但它仍然不起作用:
我不太清楚为什么会有超时,因为我只返回一个字符串。
编辑
所以我发现问题的发生是因为我使用的是在更新 JAR 之前创建的 Spark 上下文。但是,现在我尝试在 Spark 作业中使用 JavaSparkContext,它返回到上面显示的错误。
什么是摆脱错误的永久方法。
此外,我在本地 docker 容器上运行繁重的 Spark 作业这一事实是否可能是超时的一个合理原因。