2

我试图了解 Databricks 存储文件的方式,但我有点不确定dbfs:/file:/之间的区别是什么(见下图)

在此处输入图像描述

从我已经能够从这里推断出来,file:/ 似乎是通过 curl/wget 下载的外部文件被下载到以下文件夹路径中的区域:

%fs ls "file:/databricks/driver"

但是file:/到底是什么,它为什么存在以及它与dbfs:/有什么不同?

作为记录,我正在使用 Databricks 的社区免费版。

4

1 回答 1

3

Databricks 社区版托管在 Amazon Web Services 上。

当您在 databricks 社区版中创建集群时,会在后台创建一个虚拟机(aws ec2 实例),该虚拟机充当驱动程序节点以通过笔记本运行您的程序。

集群管理服务。该服务将启动已为您设置好 Spark 节点的 Amazon EC2 实例虚拟机。社区版免费 15GB 内存集群,普通版按节点按小时计费。

%fs ls "file:/"返回在 aws 云后端运行的虚拟机 aws ec2 实例中可用的文件夹。

在此处输入图像描述

%fs ls 返回 Databricks 文件系统 (DBFS) 是安装到 Databricks 工作区并在 Databricks 集群上可用的分布式文件系统。DBFS 是可扩展对象存储(即aws S3 存储)之上的抽象。

在此处输入图像描述

于 2020-09-03T14:00:30.887 回答