1

我在我的 delta 湖中保存了一个数据框,下面是命令:

df2.write.format("delta").mode("overwrite").partitionBy("updated_date").save("/delta/userdata/")

我还可以加载并查看 delta 湖 /userdata:

dfres=spark.read.format("delta").load("/delta/userdata")

但是在这里,我有一个疑问,例如当我将几个镶木地板文件从 blob 移动到 delta Lake 创建数据框时,其他人如何知道我移动了哪个文件以及他如何处理这些 delta,是否有任何命令可以列出三角洲湖中的所有数据框都在数据块中吗?

4

1 回答 1

0

将问题分解为:

  1. 找到您要检查的所有表的路径。默认位置的托管表存储在spark.conf.get("spark.sql.warehouse.dir") + s"/$tableName". 如果您有外部表,最好使用catalog.listTables()后跟catalog.getTableMetadata(ident).location.getPath. 可以直接使用任何其他路径。

  2. 使用 确定哪些路径属于 Delta 表DeltaTable.isDeltaTable(path)

希望这可以帮助。

于 2020-01-21T07:26:46.460 回答