我的问题是关于 zeppelin 中 pyspark 代码的执行时间。
我有一些笔记,我在其中使用了一些 SQL。在我的一篇笔记中,我使用.topandas()函数将我的数据框转换为熊猫。我的数据大小约为 600 兆字节。
我的问题是它需要很长时间。
例如,如果我像这样使用采样:
df.sample(False, 0.7).toPandas()
它在可接受的时间内正常工作。
另一个奇怪的地方是当我多次运行这个笔记时,它有时运行得很快,有时运行得很慢。例如,对于重新启动 pyspark 解释器后的第一次运行,它运行得更快。
如何在稳定状态下使用 zeppelin?哪些参数可以有效地在可接受的时间内运行火花代码?