我试图了解 Databricks 存储文件的方式,但我有点不确定dbfs:/和file:/之间的区别是什么(见下图)
从我已经能够从这里推断出来,file:/ 似乎是通过 curl/wget 下载的外部文件被下载到以下文件夹路径中的区域:
%fs ls "file:/databricks/driver"
但是file:/到底是什么,它为什么存在以及它与dbfs:/有什么不同?
作为记录,我正在使用 Databricks 的社区免费版。
我试图了解 Databricks 存储文件的方式,但我有点不确定dbfs:/和file:/之间的区别是什么(见下图)
从我已经能够从这里推断出来,file:/ 似乎是通过 curl/wget 下载的外部文件被下载到以下文件夹路径中的区域:
%fs ls "file:/databricks/driver"
但是file:/到底是什么,它为什么存在以及它与dbfs:/有什么不同?
作为记录,我正在使用 Databricks 的社区免费版。
Databricks 社区版托管在 Amazon Web Services 上。
当您在 databricks 社区版中创建集群时,会在后台创建一个虚拟机(aws ec2 实例),该虚拟机充当驱动程序节点以通过笔记本运行您的程序。
集群管理服务。该服务将启动已为您设置好 Spark 节点的 Amazon EC2 实例虚拟机。社区版免费 15GB 内存集群,普通版按节点按小时计费。
%fs ls "file:/"
返回在 aws 云后端运行的虚拟机 aws ec2 实例中可用的文件夹。
%fs ls
返回 Databricks 文件系统 (DBFS) 是安装到 Databricks 工作区并在 Databricks 集群上可用的分布式文件系统。DBFS 是可扩展对象存储(即aws S3 存储)之上的抽象。