0

我有熊猫数据框(示例程序),转换后的考拉数据框,现在我要在火花集群(Windows 独立)上执行,当我尝试从命令提示符为

spark-submit --master local hello.py,出现错误 ModuleNotFoundError: No module named 'databricks'

import pandas as pd
from databricks import koalas as ks

workbook_loc = "c:\\2020\Book1.xlsx"
df = pd.read_excel(workbook_loc, sheet_name='Sheet1')
kdf = ks.from_pandas(df)
print(kdf)

我应该改变什么才能使用火花集群功能。我用 pandas 编写的实际程序做了很多事情,我想利用 spark 集群来查看性能改进。

4

1 回答 1

0

您应该通过集群的管理 UI(Libraries/PyPI)安装 koalas,如果您在集群上运行 pip install koalas,它将无法正常工作。

于 2020-08-04T15:10:45.193 回答