问题标签 [delta-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
492 浏览

rstudio - 如何将 Azure Databricks 中的 RStudio 连接到 Delta Lake

在此处输入图像描述在此处输入图像描述有没有办法将 Azure Databricks 集群上的 RStudio 连接到 Delta Lake / Delta 表?(读写模式会很棒)。

在集群上的 RStudio 中,我尝试设置主目录的路径:

但是还是没有成功。有什么提示吗?

0 投票
2 回答
1343 浏览

apache-spark - 如何控制 Delta Lake 合并输出中的文件编号

我正在使用带有 Merge 的 Delta Lake 0.4.0,例如:

src 从包含数千个文件的文件夹中读取。合并结果也会生成许多小文件。有没有办法控制合并结果中的文件号,例如重新分区(1)或合并(1)的效果?

谢谢

0 投票
1 回答
184 浏览

databricks - Delta Lake (deltalake) 如何保证 ACID 交易?

Delta Lake 使用什么机制来确保用户对 DeltaTable 的操作发起的事务的原子性、一致性、隔离性和持久性?

0 投票
4 回答
13832 浏览

databricks - Databricks 删除增量表?

如何在 Databricks 中删除 Delta 表?我在文档中找不到任何信息......也许唯一的解决方案是使用魔法命令或 dbutils 删除文件夹“delta”中的文件:

编辑:

为了澄清起见,我在这里举了一个非常基本的例子。

例子:

并将其保存在 Delta 表中

然后,如果我尝试删除它.. 使用 drop table 或类似操作是不可能的

其他选项都没有,例如 drop table 'delta/test_table' 等...

0 投票
1 回答
3585 浏览

sql - 按日期列的子集对增量表进行分区

我正在 Databricks 中创建一个增量表,其中包含 1 天的代理日志(数百万行)。我希望能够按小时对表进行分区,因此仅按“_time”列对表进行分区是不够的。此外,我正在使用 %sql 运行时在我的笔记本中创建表,但如果这是一个更好的选择,我愿意在 scala 中创建它。

如何创建分区逻辑,以便为每个小时的日志创建一个新分区?

我的 _time 列的格式如下。

yyyy-mm-ddThh:mm:ss.xxxxxx-time:zone 其中时间和时区为 2 位数字。

所以,我想为每个独特的小时进行分区,一天给我 24 个分区,就像这样。

yyyy-mm-ddThh

0 投票
1 回答
1380 浏览

apache-spark - 如何在 Spark 3.0 Preview 中使用 Delta?

SPARK 3.0 无法将 DF 保存为 HDFS 中的增量表

  • 斯卡拉版本 2.12.10
  • Spark 3.0 预览版

能够在 2.4.4 中执行此操作,但未创建分区。

输入样本:

错误:

com.google.common.util.concurrent.ExecutionError: java.lang.NoSuchMethodError: org.apache.spark.util.Utils$.classForName(Ljava/lang/String;)Ljava/lang/Class; 在 com.google.common.cache.LocalCache$Segment.get(LocalCache.java:2261) 在 com.google.common.cache.LocalCache.get(LocalCache.java:4000) 在 com.google.common.cache.LocalCache $LocalManualCache.get(LocalCache.java:4789) at org.apache.spark.sql.delta.DeltaLog$.apply(DeltaLog.scala:714) at org.apache.spark.sql.delta.DeltaLog$.forTable(DeltaLog .scala:676) 在 org.apache.spark.sql.delta.sources.DeltaDataSource.createRelation(DeltaDataSource.scala:124) 在 org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:46 ) 在 org.apache.spark.sql.execution.command.ExecutedCommandExec。NoSuchMethodError: org.apache.spark.util.Utils$.classForName(Ljava/lang/String;)Ljava/lang/Class; 在 org.apache.spark.sql.delta.storage.LogStoreProvider.createLogStore(LogStore.scala:122) 在 org.apache.spark.sql.delta.storage.LogStoreProvider.createLogStore$(LogStore.scala:120) 在 org. org.apache.spark.sql.delta.storage.LogStoreProvider.createLogStore(LogStore.scala:117) 在 org.apache.spark.sql 的 apache.spark.sql.delta.DeltaLog.createLogStore(DeltaLog.scala:58)。 org.apache.spark.sql.delta.DeltaLog.createLogStore(DeltaLog.scala:58) 在 org.apache.spark.sql.delta.DeltaLog.( DeltaLog.scala:79) 在 org.apache.spark.sql.delta.DeltaLog$$anon$3.$anonfun$call$2(DeltaLog.scala:718) 在 org.apache.spark.sql。

在 REPL 的 Spark 2.4.4 中,它是在没有分区的情况下编写的。

火花 3.0 错误

0 投票
2 回答
3550 浏览

apache-spark - 插入时在增量表中自动增加 id

我有一个关于使用 pysparkSQL 与 delta 表合并 csv 文件的问题。我设法创建了 upsert 函数,如果匹配则更新,如果不匹配则插入。

我想将列添加ID到最终的增量表中,并在每次插入数据时增加它。此列标识我们的增量表中的每一行。有没有办法把它到位?

我试图增加id函数中的列,create_default_values_dict但它似乎不能正常工作,它不会自动增加 1。还有其他方法可以解决这个问题吗?提前致谢 :)

0 投票
1 回答
2496 浏览

pyspark - 如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?

我正在尝试在带有 pyspark 的 Zeppelin 笔记本中使用 Delta Lake,但它似乎无法成功导入模块。例如

它失败并出现以下错误:

ModuleNotFoundError:没有名为“delta”的模块

delta但是,使用格式保存/读取数据帧没有问题。如果使用scala spark可以成功加载模块%spark

有没有办法在 Zeppelin 和 pyspark 中使用 Delta Lake?

0 投票
2 回答
2314 浏览

apache-spark - Delta Lake 表上的 SQL 视图

我需要在 Databricks 中现有的 Delta Lake Table 之上创建一个抽象。是否可以基于 Spark 中的 Delta Lake Table 制作 SQL Server 类型的 SQL 视图?

0 投票
1 回答
3193 浏览

apache-spark - 如何列出 Databricks Azure 中的所有增量表?

我在我的 delta 湖中保存了一个数据框,下面是命令:

我还可以加载并查看 delta 湖 /userdata:

但是在这里,我有一个疑问,例如当我将几个镶木地板文件从 blob 移动到 delta Lake 创建数据框时,其他人如何知道我移动了哪个文件以及他如何处理这些 delta,是否有任何命令可以列出三角洲湖中的所有数据框都在数据块中吗?