0

我正在尝试对运行缓慢的 DSX 作业进行性能调整。

我已经从 Bluemix 上的底层 spark 服务导航到 spark 历史服务器(根据这个问题)。

我已经执行了一个包含一些基本火花代码的单元格:

In [1]:
x = sc.parallelize(range(1, 1000000))
x.collect()

Out[1]:
[1,
 2,
 3,
 4,
 5,
 ...

然后我在浏览器中刷新了 Job History Server 页面,但是 spark 历史服务器没有显示任何完整的应用程序:

在此处输入图像描述

我怎样才能找到“完整”的应用程序?


更新

我所指的 spark 服务是 IBM 在 Bluemix 上的托管 spark 服务,因此我无法控制配置。

更新 2

看起来日期已经损坏,这就是为什么我没有看到已完成的工作:

在此处输入图像描述

4

3 回答 3

1

笔记本上下文启动一个 Spark 应用程序,该应用程序将在您的作业完成后继续运行 20 分钟。当您在此期间提交另一个作业时,它将使用相同的应用程序并出现在相同的历史条目中。因此,您无法在历史服务器中跟踪笔记本或交互式 API 内核的作业/活动完成情况。

Spark 活动在内核日志中生成输出,也许可以提供您正在寻找的信息。

于 2017-03-07T11:18:17.597 回答
0

您是否将 Spark 集群配置为具有事件日志?像这样:

spark.eventLog.enabled true
spark.eventLog.dir hdfs://namenode/shared/spark-logs
于 2017-03-07T08:20:09.900 回答
0

我已经与 spark 服务工程团队讨论了这个问题 - 这是一个已知问题。

于 2017-03-17T06:06:31.147 回答