问题标签 [spark-jobserver]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何在 Mesosphere 的 DC/OS 上运行 Spark Jobserver
关于 Spark、Spark Jobserver 和 Mesosphere 的 DC/OS,我显然有很多不明白的地方。但我非常喜欢 Jobserver 项目,也非常喜欢我们的 DC/OS 集群,真的很想让它们一起运行。
像这个例子一样,将 Docker 容器扔到马拉松文件中是行不通的。我想这可能是因为我不知道要传递什么 SPARK_MASTER url(我仍然不知道,任何帮助将不胜感激),但后来我尝试从马拉松文件中删除它,它应该仍然运行本地模式下的项目,这也不起作用。这让我意识到,除了不知道如何将这个作业服务器连接到我的 DCOS spark 调度程序之外,我也不知道为什么这个 Docker 容器会在集群上失败,但不会在我的本地机器上失败,即使它没有通过任何论据。
我的日志没有显示太多,并且 Docker 容器在 stdout 中的以下内容之后以 137 状态退出:
其中,当我在本地运行时,它是在它继续将 log4j 运行到我的标准输出并告诉我作业服务器正在启动之前的最后一个日志。我在标准错误中看到以下内容:
这似乎表明 server_start.sh 正在从 spark jobserver docker 运行,并且该脚本由于某种原因而死了?
我一直剥离我的马拉松文件,这仍然给我同样的错误:
任何帮助将不胜感激。
scala - 使用作业服务器并行执行火花作业
我在独立模式下使用 spark 集群 + spark job-server 来执行我用 Scala 编写的作业执行。我在 docker 容器中启动了作业服务器:
我有下一个代码的测试工作 jar:
我可以使用作业服务器成功执行此作业并获得结果。但是当我尝试并行执行它时,其中一些会在作业服务器上出现下一个堆栈跟踪失败:
如何使用作业服务器运行我的作业以进行并行执行?
PS spark v 1.6.1 spark job-server v. 0.6.2.mesos-0.28.1.spark-1.6.1 scala 2.10
apache-spark - 将 Spark 应用程序与 Web 服务器连接
我将尝试解释我的简化用例。有:
- 计算单词的 Spark 应用程序。
- 使用表单为网页提供服务的 Web 服务器。
- 可以在此表单中键入单词并提交的用户。
服务器接收到这个词并将其发送到 Spark 应用程序。Spark 应用程序根据一些数据将这个词作为输入,然后这个词启动一个重新计算的作业。一旦 Spark 完成计算,它会将结果发送到 Web 服务器,该服务器会在网页上显示结果。
问题是,我如何在 Spark 应用程序和 Web 服务器之间建立通信?
我想,spark-jobserver 或 spark-streaming 可以在这里帮助我,但我不确定。
apache-spark - 通过作业服务器运行火花作业时出现 Stackoverflow 错误
我通过火花作业服务器有一个长时间运行的火花上下文。批处理作业会定期触发,在某些情况下,批处理作业会出现以下堆栈跟踪异常。堆栈跟踪没有太多线索可以查看异常开始的位置。
在重新启动作业服务器并使用相同的输入运行时,作业运行良好。
从日志来看,代码在调用以下方法之前已经成功运行。
这是堆栈跟踪。这具有重复方式的 writeSerialData->ordinaryObject->defaultwritefields。
问题
collect 会导致递归调用吗?使用相同的输入重新运行作业可以正常工作。有什么想法可以调试吗?
这个问题不容易重现。它在运行几天后发生。
spark-jobserver - Spark 1.6.0 的 Spark 作业服务器
是否有任何特定的 Spark Job Server 版本与 Spark 1.6.0 匹配?根据https://github.com/spark-jobserver/spark-jobserver中的版本信息,我看到 SJS 仅适用于 1.6.1,不适用于 1.6.0。我们的 CloudEra 托管 Spark 在 1.6.0 上运行
我通过将 spark home 配置为 1.6.1 来部署 SJS。当我提交作业时,我看到正在生成作业 ID,但我看不到作业结果。有什么输入吗?
hadoop - 在独立模式下编写 Parquet 文件有效.. 多工作模式失败
在 Spark 版本 1.6.1(代码在 Scala 2.10 中)中,我正在尝试将数据帧写入 Parquet 文件:
当我在开发模式下执行此操作时,一切正常。如果我在同一台机器上的 docker 环境(单独的 docker 容器)中以独立模式设置一个 master 和一个 worker,它也可以正常工作。当我尝试在集群(1 个主服务器,5 个工作人员)上执行它时它失败了。如果我在主服务器上本地设置它也可以工作。
当我尝试执行它时,我得到以下堆栈跟踪:
笔记:
- 作业通过 Spark Jobserver 提交。
- 需要转换为 Parquet 文件的文件大小为 15.1 MB。
问题:
- 有什么我做错了吗(我按照文档)
- 还是有另一种方法可以创建 Parquet 文件,以便我的所有工作人员都可以访问它?
scala - 通过 Spark 作业服务器运行 Mlib
我正在练习使用 spark 网站中提供的在线资源开发示例模型。我设法创建模型并使用 Spark-Shell 为示例数据运行它,但是如何在生产环境中实际运行模型?是通过 Spark Job 服务器吗?
上面的代码在我在 spark-shell 中运行时完美运行,但我不知道我们如何在生产环境中实际运行模型。我尝试通过 spark jobserver 运行它,但出现错误,
我确信它是因为传递了一个字符串值,而程序期望它是向量元素,有人可以指导我如何实现这一点。这也是在生产环境中将数据传递给模型的方式吗?或者是其他方式。
apache-spark - 配置 Spark 作业服务器以使用集群
我正在使用 Spark Job 服务器 docker
虽然它似乎正在工作,但当我提交工作时:
但是根据日志,作业是在本地 Spark 上执行的,而不是在集群中执行的。
为了让作业在集群中而不是在本地机器中执行,还需要什么其他配置?
spark-jobserver - 将作业提交到 Snappy 作业服务器时如何传递键/值配置设置?
我有一项工作,每次都从不同的位置加载数据文件。我想提交相同的作业 JAR,并使用 runJavaJob() API 的 Config.java 参数将不同的位置传递给它。
我看不到将键/值配置传递给snappy-job.sh Usage的方法。
我该怎么做?
curl - Apache火花休息API
我正在使用 log4j 属性的 spark-submit 命令来调用 Spark-submit,如下所示:
如何--driver-java-options
通过 curl(Apache Spark 的 Hidden REST API)提交作业?
我试过这个:
作业提交成功并给出了响应,但有一个 uknownField:
"unknownFields" : [ "spark.driver.extraJavaOptions" ]
我也试过driverExtraJavaOptions
如下:
但得到了类似的回应:
为什么是这样?
我查看了spark-submit.scala并引用了Spark REST API