问题标签 [spark-jobserver]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - “JavaPackage”对象不可调用
我的用例如下。我需要能够从 python 代码中调用 java 方法
从 py spark 这似乎很容易
我像这样启动 py spark ./pyspark --driver-class-path /path/to/app.jar
并从 pyspark shell 执行此操作
这工作正常。
但是,在使用 spark 作业服务器时:
我使用附带的 WordCountSparkJob.py 示例
我的 python.conf 看起来像这样
我收到以下错误
在 python.conf 文件中,我将 app.jar 作为dependent-jar-uris 中的一个条目。我在这里错过了什么吗
apache-spark - 火花作业服务器作业崩溃
我正在使用 spark jobserver 运行作业(需要 +-10 分钟)。作业在执行过程中随机崩溃(大约 2 次 1 次),执行程序出现以下异常:
驱动日志:
使用 spark-submit 启动工作没有任何问题。使用作业服务器(0.6.2 和 DSE)在执行程序上以相同数量的内存/核心启动作业。
有什么建议吗?
apache-spark - 在哪里可以看到 sparkjobserver 主控制台输出?
运行 spark-submit 时,您可以在 shell 中看到 println 语句。向 sparkjobserver 提交 spark 作业时,我找不到 stdout 消息的去向。有人知道吗?
apache-spark - Spark Job Server 中的 Java 程序抛出 scala.MatchError
我正在使用 DSE Spark 作业服务器。我试图完成的任务如下:
我在 Java 中创建的 spark 作业预计会从 cassandra db 获取一些数据,这将部署在 DSE Analytics 集群中。
代码如下:
问题:
在执行此代码时,我遇到以下问题:
有人可以解决这个问题。注意:我多次尝试清理/tmp
文件夹。无法解决这个问题。我使用的 DSE 版本是 4.8.10。
json - sparkjobserver 在每个 { 和 [ 前面添加一个 [
我正在使用 sparkjobserver 宁静的服务。一切正常,除了返回的 json 字符串在每个对象和数组周围都有一个额外的 []。每个数组变成
有没有人见过这个问题?有什么解决办法吗?
apache-spark - spark-jobserver 无法在 Spark 1.6.2 上构建
我正在尝试使用 Spark 1.6.2运行spark-jobserver 0.6.2
目前我正在做的是这样的:
git 克隆https://github.com/spark-jobserver/spark-jobserver.git
git 签出标签/v0.6.2 -f
- sbt 作业服务器/包
此时系统崩溃并出现以下错误:
没找到,有人知道怎么弄吗?
谢谢
apache-spark - Spark 作业服务器中的作业提交失败并出现 NullPointerException
我将 Spark Job Server 0.6.2 与 Spark 1.6.0 一起使用,在一些作业提交尝试中,我得到以下异常:
可能是什么原因?
memory - Spark JobServer,发布的内存设置
我已经设置了一个spark-jobserver来启用对缩减数据集的复杂查询。
作业服务器执行两个操作:
- 与主远程数据库同步,它转储一些服务器的表,减少和聚合数据,将结果保存为 parquet 文件并将其作为 sql 表缓存在内存中。这个操作每天都会做;
- 查询,同步操作完成后,用户可以对聚合数据集执行 SQL 复杂查询,(最终)将结果导出为 csv 文件。每个用户一次只能进行一次查询,并等待其完成。
最大的表(在减少之前和之后,还包括一些连接)有近 30M 的行,至少有 30 个字段。
实际上,我正在开发一台具有 32GB 内存的开发机器,专用于作业服务器,并且一切运行顺利。问题在于,在生产环境中,我们与 PredictionIO 服务器共享相同数量的 ram。
我在问如何确定内存配置以避免内存泄漏或火花崩溃。
我是新手,所以每一个参考或建议都被接受。
谢谢
apache-spark - 使用 Apache Spark 2.0.2 启动 spark-jobserver 时出错
我正在尝试启动 spark-jobserver。在GitHub spark_jobserver page 上提供的安装步骤中,我找不到对这个 akka 库的任何引用。我在充当主/节点的单个服务器上以独立模式运行 spark。
但是当我执行
./job-server/server_start.sh
它显示以下错误:
java - spark-jobserver 0.7.0 的 Maven 存储库
我正在设置一个 maven java 项目来在 spark-jobserver 中实现 SparkJobs。在GitHub Spark JobServer 页面中,他们提到了新的 0.7.0 版本,但在他们提供的 maven 存储库中我找不到它。
最新的是 0.6.2 ,他们只是宣布这个版本吗?或者在哪里可以找到它,因为我是从这个开始的,所以我想从最新的开始。