问题标签 [spark-jobserver]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 使用 Spark JobServer spark 不使用 hive-site.xml 上配置的 mysql 连接
使用 Spark 2.0.2 我有一个与 spark-submit 配合使用的 jar。现在我想从 Spark JobServer 使用它。
第一个问题是方法:
将已弃用的 SparkContext 改为 SparkSession 作为参数。我的解决方案是执行以下操作:
我没有安装 Hive,我只是使用 Spark 附带的 HiveSupport,我将 hive-site.xml 放在 $SPARK_HOME/conf 下,这与 spark-submit 一起使用。
蜂巢站点.xml
但是当我从这个配置文件中的 Spark JobServer 执行这个 jar 作为作业时,只需要hive.metastore.warehouse.dir。不与 MySQL db 建立任何连接来读取/保存 Hive metastore_db,当然,它看不到默认 db 上的表。我在 $SPARK_HOME/jars 文件夹中有 mysql-connector-java-5.1.40-bin.jar。
为了连接到位于我的 MySQL 数据库中的 Hive metastore_db,我该怎么做?
json - 在 Spark 作业服务器中。如何在 input.string 上传递 json 格式的字符串?
我试图执行以下 curl 命令来运行作业:
但我收到以下错误:
我的想法是传递多个参数,例如 sql 查询。一种 json 格式,可以轻松处理我提交的 jar。
我走对了还是有其他方法?
apache-spark - 构建 Spark-jobserver 时出错
未解决的依赖关系:com.ning#async-http-client;1.8.10: org.sonatype.oss#oss-parent;9!oss-parent.pom(pom.original) 原始位置必须是绝对的:文件:
apache-spark - 使用 spark-jobserver 提交 spark 作业时出错
我在提交作业时偶尔会遇到以下错误。如果我删除了filedao、datadao和sqldao的rootdir,这个错误就会消失。这意味着我必须重新启动作业服务器并重新上传我的 jar。
我的配置文件如下:
我正在使用spark-2.0-preview
版本。
memory - Spark 作业服务器释放内存
我已经在独立模式下设置了一个 spark 作业服务器(参见https://github.com/spark-jobserver/spark-jobserver/tree/jobserver-0.6.2-spark-1.6.1 )。
我创建了一个要使用的默认上下文。目前我在这种情况下有两种工作:
- 与另一台服务器同步:
- 从其他服务器的数据库中转储数据;
- 执行一些连接,减少数据,生成新的 DF;
- 将得到的DF保存在parquet文件中;
- 将此 parquet 文件加载为临时表并缓存它;
- 查询:对缓存表执行 sql 查询。
我坚持的唯一对象是将缓存的最终表。
我不明白为什么当我执行同步时,所有分配的内存都被使用并且从未释放,但是,如果我直接加载 parquet 文件(重新启动服务器,使用之前生成的 parquet 文件),只使用了一小部分内存。
我错过了什么?有没有办法释放未使用的内存?
谢谢
logging - Spark 作业服务器显示日志
我已经在独立模式下设置了一个 spark 作业服务器(参见https://github.com/spark-jobserver/spark-jobserver/tree/jobserver-0.6.2-spark-1.6.1 )。
我已经使用 Scala 设置了一些作业,每个作业都使用相同的共享上下文,但我不明白如何保存我的作业(或上下文)日志。
目前我正在使用:
没有任何成功。我还没有找到任何文档或示例,甚至可能吗?
谢谢
rest - 从 Spark Job Server 获取 Job 状态的监听器
我正在发出休息请求以查询 Spark 作业服务器以获取作业的状态。代码如下所示:
我正在向作业服务器发出如下请求:
但我觉得这不是正确的方法,我只需要知道如何向 Web 请求添加某种处理程序/侦听器,以便当我可以从作业服务器获取状态并且我可以执行一些类似于通知用户的处理方式。
有没有这样做的图书馆?
apache-spark - 为什么使用 Livy 或 spark-jobserver 而不是简单的 Web 框架?
我正在 Apache Spark 之上构建一个 RESTful API。提供以下 Python 脚本spark-submit
似乎可以正常工作:
但是谷歌搜索我看到了Livy和spark-jobserver 之类的东西。我阅读了这些项目的文档和一些教程,但我仍然不完全理解 Livy 或 spark-jobserver 相对于使用 CherryPy 或 Flask 或任何其他 Web 框架的简单脚本的优势。是关于可扩展性吗?上下文管理?我在这里想念什么?如果我想要的是一个用户不多的简单 RESTful API,那么 Livy 或 spark-jobserver 值得麻烦吗?如果是这样,为什么?
apache-spark - Spark JobServer:graphx VertexRDD java.lang.ClassNotFoundException
我正在使用 spark graphx 在 jobserver (v0.6.2 spark 1.6.1) 上开发 SparkJob,尝试在 Spark JobServer 上启动我的作业时遇到以下异常:
尽管我已经在我的 build.sbt 和 jobserver 上的 Dependecy.scala 中包含了 graphx 依赖项。
有什么帮助吗?
cassandra - FiloDB + Spark Streaming 数据丢失
我正在使用带有 Cassandra 2.2.5 列和元存储的 FiloDB 0.4,并尝试使用 Spark Streaming 1.6.1 + Jobserver 0.6.2 将数据插入其中。我使用以下代码插入数据:
段键为“:string /0”,行键设置为每行唯一的列,分区键设置为所有行的 const 列。换句话说,我所有的测试数据集都转到单个分区上的单个段。当我使用单个单节点 Spark 时,一切正常,我插入了所有数据,但是当我同时运行两个单独的单节点 Spark(不是作为集群)时,我会迷失大约 30-60即使我以几秒为间隔一一发送消息,数据的百分比。我检查了 dataFrame.write() 是否为每条消息执行,因此问题发生在此行之后。当我将段键设置为每行唯一的列时,所有数据都会到达 Cassandra/FiloDB。
请向我建议具有 2 个单独火花的场景的解决方案。