问题标签 [spark-jobserver]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
9746 浏览

java - “JavaPackage”对象不可调用

我的用例如下。我需要能够从 python 代码中调用 java 方法

从 py spark 这似乎很容易

我像这样启动 py spark ./pyspark --driver-class-path /path/to/app.jar

并从 pyspark shell 执行此操作

这工作正常。

但是,在使用 spark 作业服务器时:

我使用附带的 WordCountSparkJob.py 示例

我的 python.conf 看起来像这样

我收到以下错误

在 python.conf 文件中,我将 app.jar 作为dependent-jar-uris 中的一个条目。我在这里错过了什么吗

0 投票
0 回答
639 浏览

apache-spark - 火花作业服务器作业崩溃

我正在使用 spark jobserver 运行作业(需要 +-10 分钟)。作业在执行过程中随机崩溃(大约 2 次 1 次),执行程序出现以下异常:

驱动日志:

使用 spark-submit 启动工作没有任何问题。使用作业服务器(0.6.2 和 DSE)在执行程序上以相同数量的内存/核心启动作业。

有什么建议吗?

0 投票
1 回答
50 浏览

apache-spark - 在哪里可以看到 sparkjobserver 主控制台输出?

运行 spark-submit 时,您可以在 shell 中看到 println 语句。向 sparkjobserver 提交 spark 作业时,我找不到 stdout 消息的去向。有人知道吗?

0 投票
1 回答
253 浏览

apache-spark - Spark Job Server 中的 Java 程序抛出 scala.MatchError

我正在使用 DSE Spark 作业服务器。我试图完成的任务如下:

我在 Java 中创建的 spark 作业预计会从 cassandra db 获取一些数据,这将部署在 DSE Analytics 集群中。

代码如下:

问题:

在执行此代码时,我遇到以下问题:

有人可以解决这个问题。注意:我多次尝试清理/tmp文件夹。无法解决这个问题。我使用的 DSE 版本是 4.8.10。

0 投票
1 回答
55 浏览

json - sparkjobserver 在每个 { 和 [ 前面添加一个 [

我正在使用 sparkjobserver 宁静的服务。一切正常,除了返回的 json 字符串在每个对象和数组周围都有一个额外的 []。每个数组变成

有没有人见过这个问题?有什么解决办法吗?

0 投票
1 回答
228 浏览

apache-spark - spark-jobserver 无法在 Spark 1.6.2 上构建

我正在尝试使用 Spark 1.6.2运行spark-jobserver 0.6.2

目前我正在做的是这样的:

此时系统崩溃并出现以下错误:

没找到,有人知道怎么弄吗?

谢谢

0 投票
1 回答
272 浏览

apache-spark - Spark 作业服务器中的作业提交失败并出现 NullPointerException

我将 Spark Job Server 0.6.2 与 Spark 1.6.0 一起使用,在一些作业提交尝试中,我得到以下异常:

可能是什么原因?

0 投票
1 回答
493 浏览

memory - Spark JobServer,发布的内存设置

我已经设置了一个spark-jobserver来启用对缩减数据集的复杂查询。

作业服务器执行两个操作:

  • 与主远程数据库同步,它转储一些服务器的表,减少和聚合数据,将结果保存为 parquet 文件并将其作为 sql 表缓存在内存中。这个操作每天都会做;
  • 查询,同步操作完成后,用户可以对聚合数据集执行 SQL 复杂查询,(最终)将结果导出为 csv 文件。每个用户一次只能进行一次查询,并等待其完成。

最大的表(在减少之前和之后,还包括一些连接)有近 30M 的行,至少有 30 个字段。

实际上,我正在开发一台具有 32GB 内存的开发机器,专用于作业服务器,并且一切运行顺利。问题在于,在生产环境中,我们与 PredictionIO 服务器共享相同数量的 ram。

我在问如何确定内存配置以避免内存泄漏或火花崩溃。

我是新手,所以每一个参考或建议都被接受。

谢谢

0 投票
1 回答
357 浏览

apache-spark - 使用 Apache Spark 2.0.2 启动 spark-jobserver 时出错

我正在尝试启动 spark-jobserver。在GitHub spark_jobserver page 上提供的安装步骤中,我找不到对这个 akka 库的任何引用。我在充当主/节点的单个服务器上以独立模式运行 spark。

但是当我执行

./job-server/server_start.sh

它显示以下错误:

0 投票
1 回答
218 浏览

java - spark-jobserver 0.7.0 的 Maven 存储库

我正在设置一个 maven java 项目来在 spark-jobserver 中实现 SparkJobs。在GitHub Spark JobServer 页面中,他们提到了新的 0.7.0 版本,但在他们提供的 maven 存储库中我找不到它。

最新的是 0.6.2 ,他们只是宣布这个版本吗?或者在哪里可以找到它,因为我是从这个开始的,所以我想从最新的开始。