问题标签 [delta-lake]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

563 问题

0 投票

2 回答

492 浏览

rstudio - 如何将 Azure Databricks 中的 RStudio 连接到 Delta Lake

有没有办法将 Azure Databricks 集群上的 RStudio 连接到 Delta Lake / Delta 表？（读写模式会很棒）。

在集群上的 RStudio 中，我尝试设置主目录的路径：

但是还是没有成功。有什么提示吗？

2019-11-15T14:48:47.420

0 投票

2 回答

1343 浏览

apache-spark - 如何控制 Delta Lake 合并输出中的文件编号

我正在使用带有 Merge 的 Delta Lake 0.4.0，例如：

src 从包含数千个文件的文件夹中读取。合并结果也会生成许多小文件。有没有办法控制合并结果中的文件号，例如重新分区（1）或合并（1）的效果？

谢谢

apache-spark partition delta-lake

2019-11-19T06:42:41.850

0 投票

1 回答

184 浏览

databricks - Delta Lake (deltalake) 如何保证 ACID 交易？

Delta Lake 使用什么机制来确保用户对 DeltaTable 的操作发起的事务的原子性、一致性、隔离性和持久性？

databricks acid delta-lake

2019-11-19T12:13:05.057

0 投票

4 回答

13832 浏览

databricks - Databricks 删除增量表？

如何在 Databricks 中删除 Delta 表？我在文档中找不到任何信息......也许唯一的解决方案是使用魔法命令或 dbutils 删除文件夹“delta”中的文件：

编辑：

为了澄清起见，我在这里举了一个非常基本的例子。

例子：

并将其保存在 Delta 表中

然后，如果我尝试删除它.. 使用 drop table 或类似操作是不可能的

其他选项都没有，例如 drop table 'delta/test_table' 等...

databricks delta-lake

2019-11-22T09:01:58.143

0 投票

1 回答

3585 浏览

sql - 按日期列的子集对增量表进行分区

我正在 Databricks 中创建一个增量表，其中包含 1 天的代理日志（数百万行）。我希望能够按小时对表进行分区，因此仅按“_time”列对表进行分区是不够的。此外，我正在使用 %sql 运行时在我的笔记本中创建表，但如果这是一个更好的选择，我愿意在 scala 中创建它。

如何创建分区逻辑，以便为每个小时的日志创建一个新分区？

我的 _time 列的格式如下。

yyyy-mm-ddThh:mm:ss.xxxxxx-time:zone 其中时间和时区为 2 位数字。

所以，我想为每个独特的小时进行分区，一天给我 24 个分区，就像这样。

yyyy-mm-ddThh

sql partitioning databricks delta-lake

2019-11-26T12:05:48.833

0 投票

1 回答

1380 浏览

apache-spark - 如何在 Spark 3.0 Preview 中使用 Delta？

SPARK 3.0 无法将 DF 保存为 HDFS 中的增量表

斯卡拉版本 2.12.10
Spark 3.0 预览版

能够在 2.4.4 中执行此操作，但未创建分区。

输入样本：

错误：

com.google.common.util.concurrent.ExecutionError: java.lang.NoSuchMethodError: org.apache.spark.util.Utils$.classForName(Ljava/lang/String;)Ljava/lang/Class; 在 com.google.common.cache.LocalCache$Segment.get(LocalCache.java:2261) 在 com.google.common.cache.LocalCache.get(LocalCache.java:4000) 在 com.google.common.cache.LocalCache $LocalManualCache.get(LocalCache.java:4789) at org.apache.spark.sql.delta.DeltaLog$.apply(DeltaLog.scala:714) at org.apache.spark.sql.delta.DeltaLog$.forTable(DeltaLog .scala:676) 在 org.apache.spark.sql.delta.sources.DeltaDataSource.createRelation(DeltaDataSource.scala:124) 在 org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:46 ) 在 org.apache.spark.sql.execution.command.ExecutedCommandExec。NoSuchMethodError: org.apache.spark.util.Utils$.classForName(Ljava/lang/String;)Ljava/lang/Class; 在 org.apache.spark.sql.delta.storage.LogStoreProvider.createLogStore(LogStore.scala:122) 在 org.apache.spark.sql.delta.storage.LogStoreProvider.createLogStore$(LogStore.scala:120) 在 org. org.apache.spark.sql.delta.storage.LogStoreProvider.createLogStore(LogStore.scala:117) 在 org.apache.spark.sql 的 apache.spark.sql.delta.DeltaLog.createLogStore(DeltaLog.scala:58)。 org.apache.spark.sql.delta.DeltaLog.createLogStore(DeltaLog.scala:58) 在 org.apache.spark.sql.delta.DeltaLog.( DeltaLog.scala:79) 在 org.apache.spark.sql.delta.DeltaLog$$anon$3.$anonfun$call$2(DeltaLog.scala:718) 在 org.apache.spark.sql。

在 REPL 的 Spark 2.4.4 中，它是在没有分区的情况下编写的。

火花 3.0 错误

apache-spark delta-lake

2019-11-30T12:14:57.567

0 投票

2 回答

3550 浏览