问题标签 [delta-lake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
delta-lake - Delta Lake 的自定义元数据/标签?
我正在尝试将两个表的版本联系在一起。就像表 A 的第 1 版用于生成表 B 的第 3 版一样,我想知道这一点。Delta Lake 中是否已经存在可以轻松实现此功能的东西?
我想也许我可以尝试始终使两个版本号匹配,例如如果我更改一个表,我也会对另一个表进行额外的操作。但这似乎不是一个真正的解决方案,也不是一个强大的解决方案。
先感谢您!
scala - deltaTable 更新引发 NoSuchMethodError
我开始研究 delta Lake 并在尝试更新表时遇到了这个异常。
我在用着:
aws 电子病历 5.29
火花 2.4.4
Scala 版本 2.11.12 并使用 io.delta:delta-core_2.11:0.5.0。
知道为什么吗?
谢谢!
amazon-s3 - 如何使用 AWS Athena 读取加密的 delta 格式的 s3 数据集?
我想知道我们是否支持通过 Athena 读取 KMS-CSE 加密的 delta 格式数据集?
我正在浏览https://docs.delta.io/0.5.0/presto-integration.htm,它没有提到任何关于加密支持的内容。
如果我在 s3 中使用 KMS-CSE 对清单本身进行了加密,我能否在 Athena 中成功读取它?
使用以下命令,我可以在 athena 中创建表。
但是,当我查询时,我收到以下错误:
您的查询有以下错误:
HIVE_UNKNOWN_ERROR:检测到加密对象。请将 TBLPROPERTIES (has_encrypted_data=true) 添加到表属性。
(在 delta-users@googlegroups.com 中找到)
databricks - 我可以强制刷新 Databricks Delta 表,以便磁盘副本具有最新/一致的数据吗?
我正在从 Azure 数据工厂访问 Databricks Delta 表,它没有与 Databricks 表的本机连接器。因此,作为一种解决方法,我使用 LOCATION 关键字创建表以将它们存储在 Azure Data Lake 中。然后,由于我知道表格文件的位置,我只需从数据工厂读取底层 Parquet 文件。这工作正常。
但是……如果 Delta 事务日志中有缓存信息还没有写入磁盘怎么办?比如说,一个应用程序更新了表中的一行,而磁盘还没有反映这个事实。那么我从数据工厂中读取的内容将是错误的。
那么,两个问题...
- 这会发生吗?在被写出之前,更改是否会在日志中保留一段时间?
- 我可以强制刷新事务日志,以便我知道磁盘副本已更新吗?
scala - How to view specific changes in data at particular version in Delta Lake
Right now I have one test data which have 1 partition and inside that partition it has 2 parquet files
If I read data as:
Then I get latest data with 10,000 rows and if I read:
Then I get 612 rows, now my question is: How can I view only those new rows which were added in version 1 which is 10,000 - 612 = 9388 rows only
In short at each version I just want to view which data changed. Overall in delta log I am able to see json files and inside there json file I can see that it create separate parquet file at each version but how can I view it in code ?
I am using Spark with Scala
apache-spark - 将 Spark 数据帧写入 delta Lake
我正在尝试使用文档提供的示例代码将 Spark 数据帧转换为增量格式,但总是出现这个奇怪的错误。你能帮忙或指导吗?
错误看起来像:
databricks - 将数据插入到具有过去时间戳的 databricks 增量表中
我正在探索 DataBricks Delta 表及其时间旅行/时间特性。我有一些过去发生的事件数据。我正在尝试将它们插入到增量表中,并且能够使用数据中的时间戳而不是实际的插入时间进行时间旅行。
我的活动中有一个日期/时间列。我将它重命名为“时间戳”,但它仍然不起作用。
我的 csv 数据如下所示:(数据显示 5 次更新发生在 id=1000 的单个案例中)
我使用这些命令来创建增量表:
我有两个问题:
- 如何将数据迁移到增量表中,并且仍然保留数据中的时间戳而不是插入的时间戳来执行时间旅行?
- 创建增量表时如何指定主键或复合主键。
apache-spark - 在流终止的情况下,如何在火花结构化流中使用 foreachBatch 处理重复项?
我有一个使用 foreachBatch 并将检查点保存在数据湖中的流,但是如果我取消该流,则恰好最后一次写入未完全提交。然后下次我启动流时我会得到重复,因为它从最后提交的 batchId 开始。
我使用 delta 但我不想使用合并,因为我有很多数据而且它似乎没有我想要的性能(即使使用分区)。
如何使用 batchId 来处理重复项?还是有其他方法?
azure - 有人能解释一下三角洲湖的“黄金”表是如何被推入数据仓库的吗?有没有办法从增量格式转换为数据框?
我试图从青铜、白银、黄金中了解三角洲湖的数据流结构。黄金应该用于商业用途,并准备好通过数据仓库或某些报告服务获取。(我理解对吗?)我的问题实际上是通过将这些“黄金”表引入到数据仓库来实现更深入的数据生命周期。
谢谢!
apache-spark - 测试火花增量表的创建非常慢
我正在尝试通过创建具有已知值的微小输入增量表来为我们的 spark 逻辑编写一些测试用例。但是我注意到创建单个项目增量表需要很长时间,每个表大约 6 秒。这很快就会增加,一些使用多个表的测试用例需要几分钟才能运行!
我接受火花测试也将是缓慢的一面,但类似的镶木地板测试的创建速度约为 400 毫秒,这是可以容忍的
我在 Windows 上的这些测试中运行这些可能会导致我的问题,但其他格式似乎运行良好且速度快几个数量级
我用来生成计时的测试用例是
是否有我缺少的配置值或其他方式来加快增量表的创建?