databricks - databricks 从 s3 存储桶路径参数加载文件

Question

我是 databricks 或 spark 的新手，我从 databricks 学习这个演示。我在 AWS 上有一个 databricks 工作区设置。下面的代码来自官方demo，运行正常。但是这个 csv 文件在哪里？我想检查文件并了解路径参数的工作原理。

DROP TABLE IF EXISTS diamonds;

CREATE TABLE diamonds
USING csv
OPTIONS (path "/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", 
         header "true")

我检查了 S3 存储桶上的 databrikcs 位置，但没有找到该文件：

score 1 · Accepted Answer

/databricks-datasets是Databricks 拥有的特殊挂载位置，可在所有工作区中直接使用。您无法通过 S3 浏览器浏览它，但您可以使用、或或 DBFS 文件浏览器（在“数据”选项卡中）来浏览其内容 - 请参阅有关它的单独页面。display(dbutils.fs.ls("/databricks-datasets"))%fs ls /databricks-datasets

databricks - databricks 从 s3 存储桶路径参数加载文件

1 回答 1

Related

Reference