databricks - Databricks：dbfs：/与文件：/之间的区别

Question

我试图了解 Databricks 存储文件的方式，但我有点不确定dbfs:/和file:/之间的区别是什么（见下图）

从我已经能够从这里推断出来，file:/ 似乎是通过 curl/wget 下载的外部文件被下载到以下文件夹路径中的区域：

%fs ls "file:/databricks/driver"

但是file:/到底是什么，它为什么存在以及它与dbfs:/有什么不同？

作为记录，我正在使用 Databricks 的社区免费版。

score 3 · Accepted Answer

Databricks 社区版托管在 Amazon Web Services 上。

当您在 databricks 社区版中创建集群时，会在后台创建一个虚拟机（aws ec2 实例），该虚拟机充当驱动程序节点以通过笔记本运行您的程序。

集群管理服务。该服务将启动已为您设置好 Spark 节点的 Amazon EC2 实例虚拟机。社区版免费 15GB 内存集群，普通版按节点按小时计费。

%fs ls "file:/"返回在 aws 云后端运行的虚拟机 aws ec2 实例中可用的文件夹。

%fs ls 返回 Databricks 文件系统 (DBFS) 是安装到 Databricks 工作区并在 Databricks 集群上可用的分布式文件系统。DBFS 是可扩展对象存储（即aws S3 存储）之上的抽象。

1 回答 1