1

我有一个 PySpark 作业,我分布在一个 1-master、3-worker 集群中。

我有一些 python 打印命令可以帮助我调试代码。

print(len(X_train), 'train sequences')
print(len(X_test), 'test sequences')

print('Pad sequences (samples x time)')
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)
print('X_train shape:', X_train.shape)
print('X_test shape:', X_test.shape)

现在,当我在 Google Dataproc 上运行代码并将主设置为本地时,打印输出正确。但是,当我尝试在纱线上运行它时,使用基于 YARN 的 Spark 进行打印时,打印输出不会出现在 Dataproc UI 的作业部分下的 Google Cloud Console 中。

我在哪里可以访问未出现在 Google Dataproc 控制台中的每个 worker 和 master 的这些 python 打印输出

4

2 回答 2

0

如果您真的想访问 YARN 界面(带有所有作业及其日志的详细列表),您可以执行以下操作:

只需点击你的主人。

于 2017-04-03T14:28:07.340 回答
0

如果您使用的是 Dataproc,为什么要通过 Spark UI 访问日志?更好的方法是:

  • 使用示例提交作业gcloud dataproc jobs submit

  • 提交作业后,您可以使用 Cloud Platform Console、gcloud 命令或 Cloud Storage 访问 Cloud Dataproc 作业驱动程序输出,如下所述。

Cloud Platform Console 允许您查看作业的实时驱动程序输出。要查看作业输出,请转到项目的 Cloud Dataproc 作业部分,然后单击作业 ID 以查看作业输出。

在此处输入图像描述

参考文档

于 2016-03-31T07:03:40.507 回答