问题标签 [spark-jobserver]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
888 浏览

cassandra - 运行通过 Spark 作业服务器通过 Spark SQL 查询 Cassandra 的作业时出错

因此,我正在尝试运行仅使用 spark-sql 对 cassandra 运行查询的作业,作业提交正常并且作业开始正常。此代码在未通过 spark 作业服务器运行时(仅使用 spark 提交时)有效。有人可以告诉我导致以下错误的工作代码或配置文件有什么问题吗?

这是我正在运行的工作:

这是我的 spark-jobserver 配置文件

0 投票
1 回答
444 浏览

apache-spark - 使用 sparkjobserver 创建 sparkSQL 上下文时出现上下文初始化错误

当我运行它时,它 使 sparkContext
curl -d "" 'localhost:8090/contexts/test-context?num-cpu-cores=4&memory-per-node=512m'
没有问题,但是当我想创建 sparkSQL 上下文时出现错误卷曲是这样的curl -d "" '127.0.0.1:8090/contexts/sql-context?context-factory=spark.jobserver.context.SQLContextFactory'

{ "status": "CONTEXT INIT ERROR", "result": { "message": "", "errorClass": "java.lang.ClassNotFoundException", "stack": ["java.net.URLClassLoader$1.run(URLClassLoader.java:366)", "java.net.URLClassLoader$1.run(URLClassLoader.java:355)", "java.security.AccessController.doPrivileged(Native Method)", "java.net.URLClassLoader.findClass(URLClassLoader.java:354)", "java.lang.ClassLoader.loadClass(ClassLoader.java:425)", "java.lang.ClassLoader.loadClass(ClassLoader.java:358)", "spark.jobserver.JobManagerActor.createContextFromConfig(JobManagerActor.scala:265)", "spark.jobserver.JobManagerActor$$anonfun$wrappedReceive$1.applyOrElse(JobManagerActor.scala:106)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply$mcVL$sp(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:25)", "ooyala.common.akka.ActorStack$$anonfun$receive$1.applyOrElse(ActorStack.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply$mcVL$sp(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:25)", "ooyala.common.akka.Slf4jLogging$$anonfun$receive$1$$anonfun$applyOrElse$1.apply$mcV$sp(Slf4jLogging.scala:26)", "ooyala.common.akka.Slf4jLogging$class.ooyala$common$akka$Slf4jLogging$$withAkkaSourceLogging(Slf4jLogging.scala:35)", "ooyala.common.akka.Slf4jLogging$$anonfun$receive$1.applyOrElse(Slf4jLogging.scala:25)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply$mcVL$sp(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:25)", "ooyala.common.akka.ActorMetrics$$anonfun$receive$1.applyOrElse(ActorMetrics.scala:24)", "akka.actor.Actor$class.aroundReceive(Actor.scala:465)", "ooyala.common.akka.InstrumentedActor.aroundReceive(InstrumentedActor.scala:8)", "akka.actor.ActorCell.receiveMessage(ActorCell.scala:516)", "akka.actor.ActorCell.invoke(ActorCell.scala:487)", "akka.dispatch.Mailbox.processMailbox(Mailbox.scala:238)", "akka.dispatch.Mailbox.run(Mailbox.scala:220)", "akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:393)", "scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)", "scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)", "scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)", "scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)"] }
HiveContextFactorycurl -d "" '127.0.0.1:8090/contexts/sql-context?context-factory'

0 投票
1 回答
695 浏览

scala - 如何在火花作业中处理 cassandra 连接?

我正在对使用 spark cassandra 连接器和 cassandra 驱动程序的 spark 应用程序进行压力测试。在我的应用程序中,我使用 cassandra 驱动程序从 C* 表中选择最新的值。只要火花作业提交通过火花作业服务器一一发生,这就可以正常工作。但是,如果多个作业提交(请求数 = 80)同时发生,那么我会得到如下异常。

我通过在 spark 作业服务器中创建单个上下文来运行作业。

我的代码

问题

代码中有什么我做错了吗?

如何解决这个问题?

我应该为整个应用程序创建一个单例集群对象并共享它吗?

我应该使用sc.cassandraTable方法而不是直接使用 java 驱动程序吗?

0 投票
2 回答
1669 浏览

rest - 使用 SBT 和 Scala 构建 spark-jobserver

任何人都可以建议我更好的关于 spark-jobserver 的文档。我已经浏览了 url spark-jobserver但无法遵循相同的。如果有人逐步解释如何使用 spark-jobserver 会很棒。

用于构建项目的工具。

  • sbt 启动器版本 0.13.5
  • Scala 代码运行器版本 2.11.6

使用上述工具,我在构建 spark-jobserver 时遇到错误。

0 投票
1 回答
1837 浏览

scala - 如何在apache spark中缓存其他spark作业可以使用的数据

我有一个简单的火花代码,我在其中读取一个文件SparkContext.textFile(),然后对该数据进行一些操作,并spark-jobserver用于获取输出。在代码中,我正在缓存数据,但在作业结束后我spark-job再次执行,然后它不会采用缓存中已经存在的同一个文件。因此,每次加载文件都需要更多时间。

示例代码如下:

在这里,如果我正在读取同一个文件,那么当我第二次执行它时,它应该从缓存中获取数据,但它不会从缓存中获取数据。

有什么方法可以在多个 Spark 作业之间共享缓存的数据?

0 投票
0 回答
549 浏览

linux - 启动 spark-job-server 时如何解决此异常?

我正在尝试在我的 linux 机器上启动spark-job-server 。我做了以下事情:

  1. 安装 cloudera 发行版 CDH(5.x) 并启动并运行
  2. spark-job-server从上面提到的github下载
  3. 将项目提取到某个文件夹中
  4. 安装 sbt-0.13.8 并设置路径变量并能够运行 sbt 命令
  5. 进入项目目录 ( spark-job-server/) 并运行 sbt 命令
  6. 在 SBT shell 中,我输入了“re-start”,它应该启动spark-job-server.

然后,我得到了这个异常:

更多信息:

  • 我已经手动下载了这些依赖项并放置了它们
  • 当我再次重新运行重新启动命令时,sbt 仍然无法找到我在.ivy2文件夹中复制的相同依赖项

我怎样才能解决这个问题?

0 投票
1 回答
367 浏览

apache-spark - Spark JobServer NullPointerException

我正在尝试启动 spark 作业服务器,这是我要遵循的步骤:

  • 我根据模板配置local.sh。
  • 然后我运行 ./bin/server_deploy.sh 并完成,没有任何错误。
  • 配置 local.conf。
  • 在部署服务器中运行 ./bin/server_start.sh。

但是当我做最后一步时,我收到以下错误:

错误:代理抛出异常:java.lang.NullPointerException

注意:我使用的是 spark 1.4.1。我正在使用来自 jobserver 的 0.5.2 版本(https://github.com/spark-jobserver/spark-jobserver/tree/v0.5.2

关于如何解决这个问题(或至少调试它)的任何想法。

谢谢

0 投票
1 回答
1915 浏览

apache-spark - 如何设置 spark-job-server 配置?

我正在从 ooyala 运行 spark-job-server 0.5.3。我遵循了他们的官方文档,当它由 sbt 使用 reStart 命令启动时它工作正常。但我不能

  1. 使用 server_start.sh 脚本使其工作。

  2. 无法在独立集群上运行它。它默认在本地 [*] 主机上工作,现在没有关于如何在独立集群上运行作业服务器的明确文档。

感谢任何解决方案或任何博客或适当文档的链接。

提前致谢。

0 投票
3 回答
837 浏览

spark-jobserver - Spark Job Server HTTP 发布作业配置为 JSON

我正在使用 Spark 作业服务器运行 Spark 作业,在该作业中我通过 HTTP 帖子传递作业参数(很像这里的字数示例:https ://github.com/spark-jobserver/spark-jobserver )。

目前我可以成功地将这些参数作为 CSV 列表传递。例如:

是否可以将这些参数封装成 JSON 格式?我尝试过没有成功的事情,例如:

0 投票
1 回答
861 浏览

apache-spark - Spark Streaming 应用程序的核心用法

我们创建了一个由多个 Spark Streaming 应用程序组成的系统,每个应用程序都有多个接收器。据我了解,每个接收器都需要在集群中拥有自己的核心。我们需要多个接收器来适应峰值,但我们并不总是需要它们。应用程序很小,只执行一项任务,以便在集群上(重新)提交它们而不会分散其他作业和任务的注意力。

1)假设我们有 5 个作业,每个作业有 5 个接收器,我们将需要集群中至少 25 个核心,仅用于接收器运行 + 核心用于处理。这是正确的吗?

2) 是否有可能进行更动态的资源分配,或者一个核心是否严格绑定到一个接收器?

3) 我查看了 spark-rest-server,它提供了在不同工作中共享 spark 上下文的可能性。您能想到为所有(约 100 个)作业使用一个 SparkStreamingContext 吗?

我们在独立模式下运行集群,同时在相同节点上运行 Cassandra 集群。