pandas - 如何运行 pandas-Koalas 程序起诉 spark-submit（windows）？

Question

我有熊猫数据框（示例程序），转换后的考拉数据框，现在我要在火花集群（Windows 独立）上执行，当我尝试从命令提示符为

spark-submit --master local hello.py，出现错误 ModuleNotFoundError: No module named 'databricks'

import pandas as pd
from databricks import koalas as ks

workbook_loc = "c:\\2020\Book1.xlsx"
df = pd.read_excel(workbook_loc, sheet_name='Sheet1')
kdf = ks.from_pandas(df)
print(kdf)

我应该改变什么才能使用火花集群功能。我用 pandas 编写的实际程序做了很多事情，我想利用 spark 集群来查看性能改进。

score 0 · Accepted Answer

您应该通过集群的管理 UI（Libraries/PyPI）安装 koalas，如果您在集群上运行 pip install koalas，它将无法正常工作。

pandas - 如何运行 pandas-Koalas 程序起诉 spark-submit（windows）？

1 回答 1

Related

Reference