由于内存不足错误,我的执行阶段失败。如何确定导致失败阶段的 pyspark 源代码行?
我使用 Web UI 来查看物理计划,这提供了一些洞察力,因为它引用了源代码中的变量名称。我还查看了 DAG 的失败阶段。但是,我一直无法将 DAG 的详细信息与实际计划联系起来。
我正在使用 Pyspark 2.4.3,并且正在使用 Dataframe API。
由于内存不足错误,我的执行阶段失败。如何确定导致失败阶段的 pyspark 源代码行?
我使用 Web UI 来查看物理计划,这提供了一些洞察力,因为它引用了源代码中的变量名称。我还查看了 DAG 的失败阶段。但是,我一直无法将 DAG 的详细信息与实际计划联系起来。
我正在使用 Pyspark 2.4.3,并且正在使用 Dataframe API。