使用 databricks-connect,我可以在集群上运行 spark-code。官方文档(https://docs.microsoft.com/en-us/azure/databricks/dev-tools/databricks-connect)也只提到了 spark-code。如果我执行“普通”python 代码,它不会在 Databricks 上运行,而是在我的本地环境中运行。
据我所知,在浏览器中的 databricks 笔记本中工作时,我还可以运行在驱动程序节点上执行的“普通”python 代码。
有没有办法将外部 IDE(例如 PyCharm)连接到 Databricks,这样所有代码都在集群上执行,就好像我在笔记本中的 Databricks 中工作一样?
编辑:为了更清楚,我知道如何使用 databricks connect 将 PyCharm 连接到 databricks,我可以以这种方式运行 pyspark 代码。我想做的是在数据块上运行非火花代码(例如,在将火花数据帧转换为熊猫数据帧后,在一些数据上训练 sklearn 模型)。据我对 databricks-connect 的理解,所有非火花代码都将在我的本地计算机上运行。但是,在 databricks-notebooks 中,它在驱动程序上运行,并且正在寻找一种使用 databricks-connect 执行此操作的方法。