问题标签 [delta-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
448 浏览

delta-lake - Delta Lake 的自定义元数据/标签?

我正在尝试将两个表的版本联系在一起。就像表 A 的第 1 版用于生成表 B 的第 3 版一样,我想知道这一点。Delta Lake 中是否已经存在可以轻松实现此功能的东西?

我想也许我可以尝试始终使两个版本号匹配,例如如果我更改一个表,我也会对另一个表进行额外的操作。但这似乎不是一个真正的解决方案,也不是一个强大的解决方案。

先感谢您!

0 投票
2 回答
609 浏览

scala - deltaTable 更新引发 NoSuchMethodError

我开始研究 delta Lake 并在尝试更新表时遇到了这个异常。

我在用着:

aws 电子病历 5.29

火花 2.4.4

Scala 版本 2.11.12 并使用 io.delta:delta-core_2.11:0.5.0。

知道为什么吗?

谢谢!

0 投票
1 回答
341 浏览

amazon-s3 - 如何使用 AWS Athena 读取加密的 delta 格式的 s3 数据集?

我想知道我们是否支持通过 Athena 读取 KMS-CSE 加密的 delta 格式数据集?

我正在浏览https://docs.delta.io/0.5.0/presto-integration.htm,它没有提到任何关于加密支持的内容。

如果我在 s3 中使用 KMS-CSE 对清单本身进行了加密,我能否在 Athena 中成功读取它?

使用以下命令,我可以在 athena 中创建表。

但是,当我查询时,我收到以下错误:

您的查询有以下错误:

HIVE_UNKNOWN_ERROR:检测到加密对象。请将 TBLPROPERTIES (has_encrypted_data=true) 添加到表属性。


(在 delta-users@googlegroups.com 中找到)

0 投票
2 回答
171 浏览

databricks - 我可以强制刷新 Databricks Delta 表,以便磁盘副本具有最新/一致的数据吗?

我正在从 Azure 数据工厂访问 Databricks Delta 表,它没有与 Databricks 表的本机连接器。因此,作为一种解决方法,我使用 LOCATION 关键字创建表以将它们存储在 Azure Data Lake 中。然后,由于我知道表格文件的位置,我只需从数据工厂读取底层 Parquet 文件。这工作正常。

但是……如果 Delta 事务日志中有缓存信息还没有写入磁盘怎么办?比如说,一个应用程序更新了表中的一行,而磁盘还没有反映这个事实。那么我从数据工厂中读取的内容将是错误的。

那么,两个问题...

  • 这会发生吗?在被写出之前,更改是否会在日志中保留一段时间?
  • 我可以强制刷新事务日志,以便我知道磁盘副本已更新吗?
0 投票
1 回答
1449 浏览

scala - How to view specific changes in data at particular version in Delta Lake

Right now I have one test data which have 1 partition and inside that partition it has 2 parquet files

If I read data as:

Then I get latest data with 10,000 rows and if I read:

Then I get 612 rows, now my question is: How can I view only those new rows which were added in version 1 which is 10,000 - 612 = 9388 rows only

In short at each version I just want to view which data changed. Overall in delta log I am able to see json files and inside there json file I can see that it create separate parquet file at each version but how can I view it in code ?

I am using Spark with Scala

0 投票
3 回答
3276 浏览

apache-spark - 将 Spark 数据帧写入 delta Lake

我正在尝试使用文档提供的示例代码将 Spark 数据帧转换为增量格式,但总是出现这个奇怪的错误。你能帮忙或指导吗?

错误看起来像:

0 投票
1 回答
1179 浏览

databricks - 将数据插入到具有过去时间戳的 databricks 增量表中

我正在探索 DataBricks Delta 表及其时间旅行/时间特性。我有一些过去发生的事件数据。我正在尝试将它们插入到增量表中,并且能够使用数据中的时间戳而不是实际的插入时间进行时间旅行。

我的活动中有一个日期/时间列。我将它重命名为“时间戳”,但它仍然不起作用。

我的 csv 数据如下所示:(数据显示 5 次更新发生在 id=1000 的单个案例中)

我使用这些命令来创建增量表:

我有两个问题:

  1. 如何将数据迁移到增量表中,并且仍然保留数据中的时间戳而不是插入的时间戳来执行时间旅行?
  2. 创建增量表时如何指定主键或复合主键。
0 投票
0 回答
377 浏览

apache-spark - 在流终止的情况下,如何在火花结构化流中使用 foreachBatch 处理重复项?

我有一个使用 foreachBatch 并将检查点保存在数据湖中的流,但是如果我取消该流,则恰好最后一次写入未完全提交。然后下次我启动流时我会得到重复,因为它从最后提交的 batchId 开始。

我使用 delta 但我不想使用合并,因为我有很多数据而且它似乎没有我想要的性能(即使使用分区)。

如何使用 batchId 来处理重复项?还是有其他方法?

0 投票
1 回答
485 浏览

azure - 有人能解释一下三角洲湖的“黄金”表是如何被推入数据仓库的吗?有没有办法从增量格式转换为数据框?

我试图从青铜、白银、黄金中了解三角洲湖的数据流结构。黄金应该用于商业用途,并准备好通过数据仓库或某些报告服务获取。(我理解对吗?)我的问题实际上是通过将这些“黄金”表引入到数据仓库来实现更深入的数据生命周期。

谢谢!

0 投票
1 回答
1339 浏览

apache-spark - 测试火花增量表的创建非常慢

我正在尝试通过创建具有已知值的微小输入增量表来为我们的 spark 逻辑编写一些测试用例。但是我注意到创建单个项目增量表需要很长时间,每个表大约 6 秒。这很快就会增加,一些使用多个表的测试用例需要几分钟才能运行!

我接受火花测试也将是缓慢的一面,但类似的镶木地板测试的创建速度约为 400 毫秒,这是可以容忍的

我在 Windows 上的这些测试中运行这些可能会导致我的问题,但其他格式似乎运行良好且速度快几个数量级

我用来生成计时的测试用例是

是否有我缺少的配置值或其他方式来加快增量表的创建?