“spark-jobserver”的相关标签问题

0 投票

1 回答

888 浏览

cassandra - 运行通过 Spark 作业服务器通过 Spark SQL 查询 Cassandra 的作业时出错

因此，我正在尝试运行仅使用 spark-sql 对 cassandra 运行查询的作业，作业提交正常并且作业开始正常。此代码在未通过 spark 作业服务器运行时（仅使用 spark 提交时）有效。有人可以告诉我导致以下错误的工作代码或配置文件有什么问题吗？

这是我正在运行的工作：

这是我的 spark-jobserver 配置文件

2015-06-15T15:15:05.157

0 投票

1 回答

444 浏览

apache-spark - 使用 sparkjobserver 创建 sparkSQL 上下文时出现上下文初始化错误

当我运行它时，它使 sparkContext
curl -d "" 'localhost:8090/contexts/test-context?num-cpu-cores=4&memory-per-node=512m'
没有问题，但是当我想创建 sparkSQL 上下文时出现错误卷曲是这样的curl -d "" '127.0.0.1:8090/contexts/sql-context?context-factory=spark.jobserver.context.SQLContextFactory'

{ "status": "CONTEXT INIT ERROR", "result": { "message": "", "errorClass": "java.lang.ClassNotFoundException", "stack": ["java.net.URLClassLoader$1.run(URLClassLoader.java:366)", "java.net.URLClassLoader$1.run(URLClassLoader.java:355)", "java.security.AccessController.doPrivileged(Native Method)", "java.net.URLClassLoader.findClass(URLClassLoader.java:354)", "java.lang.ClassLoader.loadClass(ClassLoader.java:425)", "java.lang.ClassLoader.loadClass(ClassLoader.java:358)", "spark.jobserver.JobManagerActor.createContextFromConfig(JobManagerActor.scala:265)", "spark.jobserver.JobManagerActor$$anonfun$wrappedReceive$1.applyOrElse(JobManagerActor.scala:106)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply$mcVL$sp(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:25)", "ooyala.common.akka.ActorStack$$anonfun$receive$1.applyOrElse(ActorStack.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply$mcVL$sp(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:25)", "ooyala.common.akka.Slf4jLogging$$anonfun$receive$1$$anonfun$applyOrElse$1.apply$mcV$sp(Slf4jLogging.scala:26)", "ooyala.common.akka.Slf4jLogging$class.ooyala$common$akka$Slf4jLogging$$withAkkaSourceLogging(Slf4jLogging.scala:35)", "ooyala.common.akka.Slf4jLogging$$anonfun$receive$1.applyOrElse(Slf4jLogging.scala:25)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply$mcVL$sp(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:33)", "scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:25)", "ooyala.common.akka.ActorMetrics$$anonfun$receive$1.applyOrElse(ActorMetrics.scala:24)", "akka.actor.Actor$class.aroundReceive(Actor.scala:465)", "ooyala.common.akka.InstrumentedActor.aroundReceive(InstrumentedActor.scala:8)", "akka.actor.ActorCell.receiveMessage(ActorCell.scala:516)", "akka.actor.ActorCell.invoke(ActorCell.scala:487)", "akka.dispatch.Mailbox.processMailbox(Mailbox.scala:238)", "akka.dispatch.Mailbox.run(Mailbox.scala:220)", "akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:393)", "scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)", "scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)", "scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)", "scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)"] }
HiveContextFactorycurl -d "" '127.0.0.1:8090/contexts/sql-context?context-factory'

apache-spark apache-spark-sql spark-jobserver

2015-06-26T16:43:39.877

0 投票

1 回答

695 浏览

scala - 如何在火花作业中处理 cassandra 连接？

我正在对使用 spark cassandra 连接器和 cassandra 驱动程序的 spark 应用程序进行压力测试。在我的应用程序中，我使用 cassandra 驱动程序从 C* 表中选择最新的值。只要火花作业提交通过火花作业服务器一一发生，这就可以正常工作。但是，如果多个作业提交（请求数 = 80）同时发生，那么我会得到如下异常。

我通过在 spark 作业服务器中创建单个上下文来运行作业。

我的代码

问题

代码中有什么我做错了吗？

如何解决这个问题？

我应该为整个应用程序创建一个单例集群对象并共享它吗？

我应该使用sc.cassandraTable方法而不是直接使用 java 驱动程序吗？

scala apache-spark cassandra-2.0 spark-cassandra-connector spark-jobserver

2015-07-02T14:18:24.783

0 投票

2 回答

1669 浏览

rest - 使用 SBT 和 Scala 构建 spark-jobserver

任何人都可以建议我更好的关于 spark-jobserver 的文档。我已经浏览了 url spark-jobserver但无法遵循相同的。如果有人逐步解释如何使用 spark-jobserver 会很棒。

用于构建项目的工具。

sbt 启动器版本 0.13.5
Scala 代码运行器版本 2.11.6

使用上述工具，我在构建 spark-jobserver 时遇到错误。

rest apache-spark spark-jobserver

2015-07-08T12:13:18.700

0 投票

1 回答

1837 浏览

scala - 如何在apache spark中缓存其他spark作业可以使用的数据

我有一个简单的火花代码，我在其中读取一个文件SparkContext.textFile()，然后对该数据进行一些操作，并spark-jobserver用于获取输出。在代码中，我正在缓存数据，但在作业结束后我spark-job再次执行，然后它不会采用缓存中已经存在的同一个文件。因此，每次加载文件都需要更多时间。

示例代码如下：

在这里，如果我正在读取同一个文件，那么当我第二次执行它时，它应该从缓存中获取数据，但它不会从缓存中获取数据。

有什么方法可以在多个 Spark 作业之间共享缓存的数据？

scala apache-spark spark-jobserver

2015-07-27T07:53:44.403

0 投票

0 回答

549 浏览

linux - 启动 spark-job-server 时如何解决此异常？

我正在尝试在我的 linux 机器上启动spark-job-server 。我做了以下事情：

安装 cloudera 发行版 CDH(5.x) 并启动并运行
spark-job-server从上面提到的github下载
将项目提取到某个文件夹中
安装 sbt-0.13.8 并设置路径变量并能够运行 sbt 命令
进入项目目录 ( spark-job-server/) 并运行 sbt 命令
在 SBT shell 中，我输入了“re-start”，它应该启动spark-job-server.

然后，我得到了这个异常：

更多信息：

我已经手动下载了这些依赖项并放置了它们
当我再次重新运行重新启动命令时，sbt 仍然无法找到我在.ivy2文件夹中复制的相同依赖项

我怎样才能解决这个问题？

linux scala apache-spark sbt spark-jobserver

2015-08-06T03:09:47.297

0 投票

1 回答

367 浏览

apache-spark - Spark JobServer NullPointerException

我正在尝试启动 spark 作业服务器，这是我要遵循的步骤：

我根据模板配置local.sh。
然后我运行 ./bin/server_deploy.sh 并完成，没有任何错误。
配置 local.conf。
在部署服务器中运行 ./bin/server_start.sh。

但是当我做最后一步时，我收到以下错误：

错误：代理抛出异常：java.lang.NullPointerException

注意：我使用的是 spark 1.4.1。我正在使用来自 jobserver 的 0.5.2 版本（https://github.com/spark-jobserver/spark-jobserver/tree/v0.5.2）

关于如何解决这个问题（或至少调试它）的任何想法。

谢谢

apache-spark spark-jobserver

2015-08-17T15:40:23.027

0 投票

1 回答

1915 浏览

apache-spark - 如何设置 spark-job-server 配置？

我正在从 ooyala 运行 spark-job-server 0.5.3。我遵循了他们的官方文档，当它由 sbt 使用 reStart 命令启动时它工作正常。但我不能

使用 server_start.sh 脚本使其工作。
无法在独立集群上运行它。它默认在本地 [*] 主机上工作，现在没有关于如何在独立集群上运行作业服务器的明确文档。

感谢任何解决方案或任何博客或适当文档的链接。

提前致谢。

apache-spark bigdata spark-jobserver

2015-09-24T10:17:06.767

0 投票

3 回答

837 浏览

spark-jobserver - Spark Job Server HTTP 发布作业配置为 JSON

我正在使用 Spark 作业服务器运行 Spark 作业，在该作业中我通过 HTTP 帖子传递作业参数（很像这里的字数示例：https ://github.com/spark-jobserver/spark-jobserver ）。

目前我可以成功地将这些参数作为 CSV 列表传递。例如：

是否可以将这些参数封装成 JSON 格式？我尝试过没有成功的事情，例如：

spark-jobserver

2015-10-11T17:27:36.687

0 投票

1 回答

861 浏览

apache-spark - Spark Streaming 应用程序的核心用法

我们创建了一个由多个 Spark Streaming 应用程序组成的系统，每个应用程序都有多个接收器。据我了解，每个接收器都需要在集群中拥有自己的核心。我们需要多个接收器来适应峰值，但我们并不总是需要它们。应用程序很小，只执行一项任务，以便在集群上（重新）提交它们而不会分散其他作业和任务的注意力。

1）假设我们有 5 个作业，每个作业有 5 个接收器，我们将需要集群中至少 25 个核心，仅用于接收器运行 + 核心用于处理。这是正确的吗？

2) 是否有可能进行更动态的资源分配，或者一个核心是否严格绑定到一个接收器？

3) 我查看了 spark-rest-server，它提供了在不同工作中共享 spark 上下文的可能性。您能想到为所有（约 100 个）作业使用一个 SparkStreamingContext 吗？

我们在独立模式下运行集群，同时在相同节点上运行 Cassandra 集群。

apache-spark spark-streaming spark-jobserver

2015-10-21T14:04:06.270

问题标签 [spark-jobserver]

Reference