1

我正在写这个笔记本。https://databricks.com/notebooks/simple-aws/petastorm-spark-converter-pytorch.html

我尝试运行第一行

df = spark.read.parquet("/databricks-datasets/flowers/parquet") \
  .select(col("content"), col("label_index")) \
  .limit(1000)

但是我收到了这个错误


 Path does not exist: dbfs:/databricks-datasets/flowers/parquet;

我想知道在哪里可以找到数据块上鲜花数据集的镶木地板版本。仅供参考,我正在开发社区版。

4

1 回答 1

1

这个数据集被转换成 Delta 格式,所以现在的路径是/databricks-datasets/flowers/delta,而不是/databricks-datasets/flowers/parquet,你需要用对应的代码来读取它:

df = spark.read.format('delta').load('/databricks-datasets/flowers/delta')

PS您总是可以使用%fs ls path命令查看给定路径下的文件

PPS 如果可能的话,我会要求修理那个笔记本

于 2021-01-03T13:20:31.920 回答