2

我有一个无法 .show() 的数据框。每次它给出以下错误?是否有可能存在损坏的列?

错误:

Py4JJavaError:调用 o426.showString 时出错。:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 381.0 中的任务 0 失败 4 次,最近一次失败:阶段 381.0 中丢失任务 0.3(TID 19204,ddlps28.rsc.dwo.com,执行程序 99) :org.apache.spark.api.python.PythonException:回溯(最近一次调用最后一次):文件“/opt/cloudera/parcels/SPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354/lib/ spark2/python/pyspark/worker.py”,第 177 行,在 main

4

1 回答 1

3

您的错误很可能实际上不在“显示”操作中。就是 .show 是触发 DAG 执行的原因。你说如果你不运行你的UDF它就可以工作,你可能只是在那个UDF中有一个不同的错误。该日志可能在工作节点上,因此请尝试通过您的 Hadoop UI 访问以访问执行程序日志以查看真正的问题

于 2018-12-06T20:54:20.327 回答