1

我有一个通过 qubole 运行的 pyspark 作业,该作业失败并出现以下错误。

Qubole > Shell Command failed, exit code unknown
Qubole > 2016-12-03 17:36:53,097 ERROR shellcli.py:231 - run - Retrying exception reading mapper output: (22, 'The requested URL returned error: 404 Not Found')

Qubole > 2016-12-03 17:36:53,358 ERROR shellcli.py:262 - run - Retrying exception reading mapper logs: (22, 'The requested URL returned error: 404 Not Found')

该作业使用以下配置运行:

--num-executors 38 --executor-cores 2 --executor-memory 12288M --driver-memory 4000M --conf spark.storage.memoryFraction=0.3 --conf spark.yarn.executor.memoryOverhead=1024

集群包含 30 个从属设备。m2.2xlarge,4核主从节点。

任何有关问题根本原因的见解都会很有用。

4

1 回答 1

0

在很多情况下——上述错误确实不是失败的主要原因。在 qubole 中,spark 作业是通过 shellCli 提交的(1 个映射器命令,该命令在其中一个从节点上使用 spark-submit 调用主 pyspark 作业)——并且由于相同的 shellCli 进程在 yarn-client 模式下调用驱动程序——通常如果由于任何原因(即驱动程序的内存问题),此过程会出错,那么您可能会遇到此问题。其他不太可能的原因可能是 - qubole 层无法连接到运行此 1 映射器调用程序作业的进程/从属节点的网络连接。

于 2017-08-30T01:26:24.117 回答