apache-spark - Databricks 中的花拼花数据集在哪里

Question

我尝试运行第一行

df = spark.read.parquet("/databricks-datasets/flowers/parquet") \
  .select(col("content"), col("label_index")) \
  .limit(1000)

但是我收到了这个错误


 Path does not exist: dbfs:/databricks-datasets/flowers/parquet;

我想知道在哪里可以找到数据块上鲜花数据集的镶木地板版本。仅供参考，我正在开发社区版。

score 1 · Accepted Answer

这个数据集被转换成 Delta 格式，所以现在的路径是/databricks-datasets/flowers/delta，而不是/databricks-datasets/flowers/parquet，你需要用对应的代码来读取它：

df = spark.read.format('delta').load('/databricks-datasets/flowers/delta')

PS您总是可以使用%fs ls path命令查看给定路径下的文件

PPS 如果可能的话，我会要求修理那个笔记本

1 回答 1