0

我开始在我的 Community Edition Databricks 上玩流媒体,但在制作测试事件几分钟后,我遇到了一些问题。我相信这与流式传输过程中产生的一些临时小文件的事实有某种联系。我想找到它们并删除,但找不到它们的存储位置。我的例外是

com.databricks.api.base.DatabricksServiceException: QUOTA_EXCEEDED: You have exceeded the maximum number of allowed files on Databricks Community Edition. To ensure free access, you are limited to 10000 files and 10 GB of storage in DBFS. Please use dbutils.fs to list and clean up files to restore service. You may have to wait a few minutes after cleaning up the files for the quota to be refreshed. (Files found: 11492);

而且我尝试运行一些 shell 脚本来找出每个文件夹的文件数,但不幸的是,我找不到可疑的,大多数情况lib下,usr还有其他包含系统或 python 文件的文件夹,找不到任何可以由我的流媒体生成的东西。我使用的这个脚本

find / -maxdepth 2 -mindepth 1 -type d | while read dir; do
  printf "%-25.25s : " "$dir"
  find "$dir" -type f | wc -l
done

我在哪里可以找到问题的原因too many files?也许它根本没有连接到流媒体?

为了清楚起见,我没有上传很多自定义文件到/FileStore

4

1 回答 1

0

看起来您只检查了本地文件系统上的文件,而不是 DBFS 本身。您可以通过在 Databricks 笔记本中运行以下单元来查看 DBFS:

%sh
fs ls /

或者:

%python
dbutils.fs.ls("/")

您可以在那里检查文件并使用dbutils.fs.rm或删除它们fs rm。还要查看/tmpDBFS 上的文件夹并删除那里的所有文件。

于 2020-08-23T13:00:29.053 回答