问题标签 [delta-lake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何控制 Delta Lake 合并输出中的文件编号
我正在使用带有 Merge 的 Delta Lake 0.4.0,例如:
src 从包含数千个文件的文件夹中读取。合并结果也会生成许多小文件。有没有办法控制合并结果中的文件号,例如重新分区(1)或合并(1)的效果?
谢谢
databricks - Delta Lake (deltalake) 如何保证 ACID 交易?
Delta Lake 使用什么机制来确保用户对 DeltaTable 的操作发起的事务的原子性、一致性、隔离性和持久性?
databricks - Databricks 删除增量表?
如何在 Databricks 中删除 Delta 表?我在文档中找不到任何信息......也许唯一的解决方案是使用魔法命令或 dbutils 删除文件夹“delta”中的文件:
编辑:
为了澄清起见,我在这里举了一个非常基本的例子。
例子:
并将其保存在 Delta 表中
然后,如果我尝试删除它.. 使用 drop table 或类似操作是不可能的
其他选项都没有,例如 drop table 'delta/test_table' 等...
sql - 按日期列的子集对增量表进行分区
我正在 Databricks 中创建一个增量表,其中包含 1 天的代理日志(数百万行)。我希望能够按小时对表进行分区,因此仅按“_time”列对表进行分区是不够的。此外,我正在使用 %sql 运行时在我的笔记本中创建表,但如果这是一个更好的选择,我愿意在 scala 中创建它。
如何创建分区逻辑,以便为每个小时的日志创建一个新分区?
我的 _time 列的格式如下。
yyyy-mm-ddThh:mm:ss.xxxxxx-time:zone 其中时间和时区为 2 位数字。
所以,我想为每个独特的小时进行分区,一天给我 24 个分区,就像这样。
yyyy-mm-ddThh
apache-spark - 如何在 Spark 3.0 Preview 中使用 Delta?
SPARK 3.0 无法将 DF 保存为 HDFS 中的增量表
- 斯卡拉版本 2.12.10
- Spark 3.0 预览版
能够在 2.4.4 中执行此操作,但未创建分区。
输入样本:
错误:
com.google.common.util.concurrent.ExecutionError: java.lang.NoSuchMethodError: org.apache.spark.util.Utils$.classForName(Ljava/lang/String;)Ljava/lang/Class; 在 com.google.common.cache.LocalCache$Segment.get(LocalCache.java:2261) 在 com.google.common.cache.LocalCache.get(LocalCache.java:4000) 在 com.google.common.cache.LocalCache $LocalManualCache.get(LocalCache.java:4789) at org.apache.spark.sql.delta.DeltaLog$.apply(DeltaLog.scala:714) at org.apache.spark.sql.delta.DeltaLog$.forTable(DeltaLog .scala:676) 在 org.apache.spark.sql.delta.sources.DeltaDataSource.createRelation(DeltaDataSource.scala:124) 在 org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:46 ) 在 org.apache.spark.sql.execution.command.ExecutedCommandExec。NoSuchMethodError: org.apache.spark.util.Utils$.classForName(Ljava/lang/String;)Ljava/lang/Class; 在 org.apache.spark.sql.delta.storage.LogStoreProvider.createLogStore(LogStore.scala:122) 在 org.apache.spark.sql.delta.storage.LogStoreProvider.createLogStore$(LogStore.scala:120) 在 org. org.apache.spark.sql.delta.storage.LogStoreProvider.createLogStore(LogStore.scala:117) 在 org.apache.spark.sql 的 apache.spark.sql.delta.DeltaLog.createLogStore(DeltaLog.scala:58)。 org.apache.spark.sql.delta.DeltaLog.createLogStore(DeltaLog.scala:58) 在 org.apache.spark.sql.delta.DeltaLog.( DeltaLog.scala:79) 在 org.apache.spark.sql.delta.DeltaLog$$anon$3.$anonfun$call$2(DeltaLog.scala:718) 在 org.apache.spark.sql。
在 REPL 的 Spark 2.4.4 中,它是在没有分区的情况下编写的。
火花 3.0 错误
apache-spark - 插入时在增量表中自动增加 id
我有一个关于使用 pysparkSQL 与 delta 表合并 csv 文件的问题。我设法创建了 upsert 函数,如果匹配则更新,如果不匹配则插入。
我想将列添加ID
到最终的增量表中,并在每次插入数据时增加它。此列标识我们的增量表中的每一行。有没有办法把它到位?
我试图增加id
函数中的列,create_default_values_dict
但它似乎不能正常工作,它不会自动增加 1。还有其他方法可以解决这个问题吗?提前致谢 :)
pyspark - 如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?
我正在尝试在带有 pyspark 的 Zeppelin 笔记本中使用 Delta Lake,但它似乎无法成功导入模块。例如
它失败并出现以下错误:
ModuleNotFoundError:没有名为“delta”的模块
delta
但是,使用格式保存/读取数据帧没有问题。如果使用scala spark可以成功加载模块%spark
有没有办法在 Zeppelin 和 pyspark 中使用 Delta Lake?
apache-spark - Delta Lake 表上的 SQL 视图
我需要在 Databricks 中现有的 Delta Lake Table 之上创建一个抽象。是否可以基于 Spark 中的 Delta Lake Table 制作 SQL Server 类型的 SQL 视图?
apache-spark - 如何列出 Databricks Azure 中的所有增量表?
我在我的 delta 湖中保存了一个数据框,下面是命令:
我还可以加载并查看 delta 湖 /userdata:
但是在这里,我有一个疑问,例如当我将几个镶木地板文件从 blob 移动到 delta Lake 创建数据框时,其他人如何知道我移动了哪个文件以及他如何处理这些 delta,是否有任何命令可以列出三角洲湖中的所有数据框都在数据块中吗?