5

尝试读取databricks 社区版集群中的增量日志文件。(databricks-7.2 版本)

df=spark.range(100).toDF("id")
df.show()
df.repartition(1).write.mode("append").format("delta").save("/user/delta_test")

with open('/user/delta_test/_delta_log/00000000000000000000.json','r')  as f:
  for l in f:
    print(l)

Getting file not found error:

FileNotFoundError: [Errno 2] No such file or directory: '/user/delta_test/_delta_log/00000000000000000000.json'
---------------------------------------------------------------------------
FileNotFoundError                         Traceback (most recent call last)
<command-1759925981994211> in <module>
----> 1 with open('/user/delta_test/_delta_log/00000000000000000000.json','r')  as f:
      2   for l in f:
      3     print(l)

FileNotFoundError: [Errno 2] No such file or directory: '/user/delta_test/_delta_log/00000000000000000000.json'

我已经尝试添加/dbfs/dbfs:/没有解决,仍然得到同样的错误。

with open('/dbfs/user/delta_test/_delta_log/00000000000000000000.json','r')  as f:
  for l in f:
    print(l)

但是使用dbutils.fs.head我能够读取文件。

dbutils.fs.head("/user/delta_test/_delta_log/00000000000000000000.json")

'{"commitInfo":{"timestamp":1598224183331,"userId":"284520831744638","userName":"","operation":"WRITE","operationParameters":{"mode":"Append","partitionBy":"[]"},"notebook":{"","isolationLevel":"WriteSerializable","isBlindAppend":true,"operationMetrics":{"numFiles":"1","numOutputBytes":"1171","numOutputRows":"100"}}}\n{"protocol":{"minReaderVersi...etc

我们如何使用 读取/dbfs file分类数据块中的 a python open method

4

1 回答 1

8

默认情况下,此数据位于 DBFS 上,您的代码需要了解如何访问它。Python 对此一无所知——这就是它失败的原因。

但是有一个解决方法 - DBFS 安装到节点上/dbfs,所以你只需要将它附加到你的文件名:而不是/user/delta_test/_delta_log/00000000000000000000.json,使用/dbfs/user/delta_test/_delta_log/00000000000000000000.json

更新:在社区版中,在 DBR 7+ 中,此挂载已禁用。解决方法是使用dbutils.fs.cp命令将文件从 DBFS 复制到本地目录,如 、/tmp/var/tmp,然后从中读取:

dbutils.fs.cp("/file_on_dbfs", "file:///tmp/local_file")

请注意,如果您不指定 URI 架构,则默认情况下文件引用 DBFS,并且要引用本地文件,您需要使用file://前缀(请参阅docs)。

于 2020-09-09T14:51:30.280 回答