问题标签 [delta-lake]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

563 问题

0 投票

1 回答

448 浏览

delta-lake - Delta Lake 的自定义元数据/标签？

我正在尝试将两个表的版本联系在一起。就像表 A 的第 1 版用于生成表 B 的第 3 版一样，我想知道这一点。Delta Lake 中是否已经存在可以轻松实现此功能的东西？

我想也许我可以尝试始终使两个版本号匹配，例如如果我更改一个表，我也会对另一个表进行额外的操作。但这似乎不是一个真正的解决方案，也不是一个强大的解决方案。

先感谢您！

delta-lake

2020-01-17T14:17:17.747

0 投票

2 回答

609 浏览

scala - deltaTable 更新引发 NoSuchMethodError

我开始研究 delta Lake 并在尝试更新表时遇到了这个异常。

我在用着：

aws 电子病历 5.29

火花 2.4.4

Scala 版本 2.11.12 并使用 io.delta:delta-core_2.11:0.5.0。

知道为什么吗？

谢谢！

2020-01-21T09:10:25.950

0 投票

1 回答

341 浏览

amazon-s3 - 如何使用 AWS Athena 读取加密的 delta 格式的 s3 数据集？

我想知道我们是否支持通过 Athena 读取 KMS-CSE 加密的 delta 格式数据集？

我正在浏览https://docs.delta.io/0.5.0/presto-integration.htm，它没有提到任何关于加密支持的内容。

如果我在 s3 中使用 KMS-CSE 对清单本身进行了加密，我能否在 Athena 中成功读取它？

使用以下命令，我可以在 athena 中创建表。

但是，当我查询时，我收到以下错误：

您的查询有以下错误：

HIVE_UNKNOWN_ERROR：检测到加密对象。请将 TBLPROPERTIES (has_encrypted_data=true) 添加到表属性。

（在 delta-users@googlegroups.com 中找到）

amazon-s3 amazon-athena delta-lake

2020-01-21T19:53:23.540

0 投票

2 回答

171 浏览

databricks - 我可以强制刷新 Databricks Delta 表，以便磁盘副本具有最新/一致的数据吗？

我正在从 Azure 数据工厂访问 Databricks Delta 表，它没有与 Databricks 表的本机连接器。因此，作为一种解决方法，我使用 LOCATION 关键字创建表以将它们存储在 Azure Data Lake 中。然后，由于我知道表格文件的位置，我只需从数据工厂读取底层 Parquet 文件。这工作正常。

但是……如果 Delta 事务日志中有缓存信息还没有写入磁盘怎么办？比如说，一个应用程序更新了表中的一行，而磁盘还没有反映这个事实。那么我从数据工厂中读取的内容将是错误的。

那么，两个问题...

这会发生吗？在被写出之前，更改是否会在日志中保留一段时间？
我可以强制刷新事务日志，以便我知道磁盘副本已更新吗？

databricks delta-lake

2020-01-27T15:20:24.977

0 投票

1 回答

1449 浏览

scala - How to view specific changes in data at particular version in Delta Lake

Right now I have one test data which have 1 partition and inside that partition it has 2 parquet files

If I read data as:

Then I get latest data with 10,000 rows and if I read:

Then I get 612 rows, now my question is: How can I view only those new rows which were added in version 1 which is 10,000 - 612 = 9388 rows only

In short at each version I just want to view which data changed. Overall in delta log I am able to see json files and inside there json file I can see that it create separate parquet file at each version but how can I view it in code ?

I am using Spark with Scala

scala apache-spark delta delta-lake data-quality

2020-02-03T11:21:53.083

0 投票

3 回答

3276 浏览