我能够从数据块连接中提取数据并完美地运行火花作业。我的问题是如何在远程集群上运行非火花或本机 python 代码。由于机密性,不共享代码。
问问题
114 次
1 回答
1
当您使用 databricks 连接时,您的本地计算机是您的 Spark 作业的驱动程序,因此非 Spark 代码将始终在您的本地计算机上执行。如果要远程执行,则需要将其打包为 wheel/egg,或者将 Python 文件上传到 DBFS(例如,通过databricks-cli)并将代码作为 Databricks 作业执行(例如,使用Run Submit 命令Jobs REST API,或者使用 databricks-cli 创建一个 Job并使用databricks jobs run-now
它来执行它)
于 2021-10-12T06:25:00.210 回答