3

我已经在 spark notebook 中完成了一些代码,我尝试将它移动到一个真实的项目中,并使用它sbt来生成一个jar,然后使用它spark-submit来执行它。

问题:在spark notebooks中只需要10分钟就可以得到结果,但是当我使用命令spark-submit时,需要将近3个小时才能得到结果。

信息:我配置的 spark、scala 版本和参数(主 url、执行核心/内存等)在 notebook 和 spark-submit 之间都是相同的。

嫌疑人1:可能是因为日志(LogFactory.getLog().info("xxxx"))?这使程序花费太多时间来打印或保存它们?

嫌疑人2:可能是因为密码?我没有对notebook的代码做任何大的改动,只是创建一个函数,把代码放在里面运行。我应该做一些分区还是什么?

4

0 回答 0