我有一个 PySpark 作业,我分布在一个 1-master、3-worker 集群中。
我有一些 python 打印命令可以帮助我调试代码。
print(len(X_train), 'train sequences')
print(len(X_test), 'test sequences')
print('Pad sequences (samples x time)')
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)
print('X_train shape:', X_train.shape)
print('X_test shape:', X_test.shape)
现在,当我在 Google Dataproc 上运行代码并将主设置为本地时,打印输出正确。但是,当我尝试在纱线上运行它时,使用基于 YARN 的 Spark 进行打印时,打印输出不会出现在 Dataproc UI 的作业部分下的 Google Cloud Console 中。
我在哪里可以访问未出现在 Google Dataproc 控制台中的每个 worker 和 master 的这些 python 打印输出