问题标签 [delta-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
804 浏览

pyspark - 如何将数据帧的每一行写入/写入流到不同的增量表中

我的数据框的每一行都有一个 CSV 内容。

我正在努力将每一行保存在不同的特定表中。

我相信我需要使用 foreach 或 UDF 来完成此操作,但这根本行不通。

我设法找到的所有内容就像 foreachs 中的简单打印或使用 .collect() 的代码(我真的不想使用)。

我也找到了重新分区的方式,但这不允许我选择每一行的去向。

你能给我一个简单而有效的例子吗?

0 投票
1 回答
701 浏览

python-3.x - 从 azure blob 存储将数据加载到 delta Lake

我正在尝试将数据从 azure blob 存储加载到 delta Lake 中。我正在使用下面的代码片段

storage_account_name = "xxxxxxxxdev" storage_account_access_key = "xxxxxxxxxxxxxxxxxxxxx"

file_location = "wasbs://bicc-hdspk-eus-qc@xxxxxxxxdev.blob.core.windows.net/FSHC/DIM/FSHC_DIM_SBU"

文件类型 = "csv"

spark.conf.set("fs.azure.account.key."+storage_account_name+".blob.core.windows.net",storage_account_access_key)

df = spark.read.format(file_type).option("header","true").option("inferSchema", "true").option("delimiter", '|').load(file_location)

dx = df.write.format("镶木地板")

直到这一步它正在工作,我也可以将它加载到 databricks 表中。

dx.write.format("delta").save(file_location)

错误:AttributeError:“DataFrameWriter”对象没有属性“write”

ps - 我是否将文件位置错误地传递到写入语句中?如果这是原因,那么 delta Lake 的文件路径是什么。

如果需要更多信息,请回复我。

谢谢, 阿比鲁普

0 投票
1 回答
1113 浏览

apache-spark - 写入文件时出现 Databricks 校验和错误

我正在 9 个节点中运行作业。

他们都将向文件中写入一些信息,执行如下简单的写入操作:

但是我收到了这个例外:

py4j.protocol.Py4JJavaError:调用 o106.save 时出错。:java.util.concurrent.ExecutionException:org.apache.spark.SparkException:作业因阶段失败而中止:阶段14.0中的任务1失败1次,最近失败:阶段14.0中丢失任务1.0(TID 259,本地主机,执行程序驱动程序):org.apache.hadoop.fs.ChecksumException:校验和错误:文件:/dbfs/delta/Logging/_delta_log/00000000000000000063.json at 0 exp:1179219224 得到:-1020415797

在我看来,由于并发性,spark 以某种方式失败并产生校验和错误。

是否有任何已知的情况可能导致它?

0 投票
2 回答
11446 浏览

databricks - 将数据写入 Azure 数据块中的 Delta Lake 时出现问题(检测到不兼容的格式)

我需要将数据集读入 DataFrame,然后将数据写入 Delta Lake。但我有以下例外:

这是异常之前的代码:

0 投票
3 回答
1233 浏览

apache-spark - 如何统计一天从 Kafka 主题中获取的消息数?

我正在从 Kafka 主题中获取数据并将它们存储为 Deltalake(parquet) 格式。我希望找到特定日期获取的消息数

我的思考过程:我想使用 spark 读取数据以 parquet 格式存储的目录,并在特定日期对带有“.parquet”的文件应用计数。这会返回一个计数,但我不确定这是否是正确的方法。

这种方式正确吗?有没有其他方法可以计算在特定日期(或持续时间)从 Kafka 主题获取的消息数量?

0 投票
1 回答
3513 浏览

scala - 无法使用 Spark 获取 Delta Lake 表的元数据信息

我正在尝试获取使用 DataFrame 创建的 Delta Lake 表的元数据信息。有关版本、时间戳的信息。

尝试过:spark.sql("describe deltaSample").show(10,false)-这没有提供与版本和时间戳相关的信息:

我想知道有多少个带有时间戳信息的版本

下面是代码: // 在 spark-shell 中下载 delta

// 保存数据框

//创建delta湖表

//更新delta湖表

// 获取创建的表的元数据。带有版本,时间戳信息。

预期的表格显示(例如:添加的列版本、时间戳):

0 投票
1 回答
103 浏览

scala - delta-io/delta 项目编译失败

该项目是delta

我已经在我的 Mac 上安装了 sbt-1.2.8。但是,我无法使用“build/sbt compile”来编译这个项目。输入命令后,错误如下:

我是 sbt 工具的新手。我尝试在 project/build.properties 中更改 sbt 版本,但没有成功。任何人都可以帮我解决这个问题吗?

0 投票
2 回答
1320 浏览

azure-databricks - 从数据块中的 deltalake 表写入 csv 文件

如何将 deltalake 表的内容写入 Azure databricks 中的 csv 文件?有没有一种方法可以让我不必先将内容转储到数据框中?https://docs.databricks.com/delta/delta-batch.html

0 投票
2 回答
2531 浏览

databricks - 如何删除非托管三角洲湖表

我正在尝试删除使用 writestream 创建的 delta 湖表。我尝试了删除表,但失败了

0 投票
5 回答
5880 浏览

apache-spark - Delta Lake 回滚

需要一种优雅的方式将 Delta Lake 回滚到以前的版本。

我目前的方法如下:

但这很丑陋,因为需要重写整个数据集。似乎一些元更新就足够了,不需要数据 I/O。有人知道更好的方法吗?