我设法使用 Kaggle API 从 Kaggle 下载数据集。数据存放在/databricks/driver目录下。
%sh pip install kaggle
%sh
export KAGGLE_USERNAME=my_name
export KAGGLE_KEY=my_key
kaggle competitions download -c ncaaw-march-mania-2021
%sh unzip ncaaw-march-mania-2021.zip
问题是:如何在 DBFS 中使用它们?以下是我如何读取数据以及尝试使用 pyspark 读取 csv 文件时遇到的错误:
spark.read.csv('/databricks/driver/WDataFiles_Stage1/Cities.csv')
AnalysisException: Path does not exist: dbfs:/databricks/driver/WDataFiles_Stage1/Cities.csv