5

我在跑步pyspark,,,,spark 1.3standalone modeclient mode

我正在尝试通过查看过去的工作并进行比较来调查我的火花工作。我想查看他们的日志、提交作业的配置设置等。但是在上下文关闭后查看作业日志时遇到了麻烦。

当我提交工作时,我当然会打开一个 spark 上下文。在作业运行时,我可以使用 ssh 隧道打开spark Web UI 。而且,我可以通过localhost:<port no>. 然后我可以查看当前正在运行的作业以及已完成的作业,如下所示:

火花网络用户界面示例

然后,如果我希望查看特定作业的日志,我可以使用 ssh 隧道端口转发来查看该作业的特定机器的特定端口上的日志。

然后,有时作业会失败,但上下文仍然是打开的。发生这种情况时,我仍然可以通过上述方法查看日志。

但是,由于我不想一次打开所有这些上下文,所以当作业失败时,我会关闭上下文。当我关闭上下文时,该作业出现在上图中的“已完成的应用程序”下。现在,当我尝试使用 ssh 隧道端口转发来查看日志时,和以前一样(localhost:<port no>),它给了我一个page not found.

关闭上下文后如何查看作业的日志?spark context而且,这对日志的保存位置和保存位置之间的关系意味着什么?谢谢你。

再次,我正在跑步pyspark,,,,。spark 1.3standalone modeclient mode

4

1 回答 1

11

Spark 事件日志/历史服务器适用于此用例。

启用事件日志

如果conf/spark-default.conf不存在

cp conf/spark-defaults.conf.template conf/spark-defaults.conf

将以下配置添加到conf/spark-default.conf.

# This is to enabled event log
spark.eventLog.enabled  true

// this is where to store event log
spark.eventLog.dir file:///Users/rockieyang/git/spark/spark-events

// this is tell history server where to get event log
spark.history.fs.logDirectory file:///Users/rockieyang/git/spark/spark-events

历史服务器

启动历史服务器

sbin/start-history-server.sh 

查看历史,默认端口为18080

http://localhost:18080/

于 2016-07-16T03:37:35.267 回答