问题标签 [delta-lake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何将 Parquet 转换为 Spark Delta Lake?
我试图将一组镶木地板文件就地转换为 delta 格式。我尝试使用 Databricks 文档中提到的 CONVERT 命令。https://docs.databricks.com/spark/latest/spark-sql/language-manual/convert-to-delta.html
CONVERT TO DELTA parquet.'path/to/table'
我正在使用 Spark 2.4.4 和 PySpark(Python 版本 3.5.3)。这是我正在执行的命令
spark.sql("CONVERT TO DELTA parquet. '/usr/spark-2.4.4/data/delta-parquet/'")
其中'/usr/spark-2.4.4/data/delta-parquet/'是 parquet 文件所在的路径。
但是,我遇到了一个例外。
我是否以正确的方式使用 CONVERT 命令?任何帮助,将不胜感激。
java - How to resolve Spark java.lang.OutOfMemoryError: Java heap space while writing out in delta format?
I am loading around 4GB of data from parquet files into a Spark DF. Loading takes few hundred millisecs. Then I register the DF as a table to Execute SQL queries.
sparkDF = sqlContext.read.parquet("<path>/*.parquet")
sparkDF.registerTempTable("sparkDF")
One of those which is a selective query with 60 columns in the select list gave out of memory exception.
When I remove some of the columns from the select list, it is getting executed successfully. I tried to increase the spark.executor.memory and spark.driver.memory to about 16g. But the issue could not be resolved.
Then I updated the spark version to the latest one 2.4.4. It no more gives the error now.
But with the same updated version when I write the same DF in delta format, I am getting the same out of memory error.
Any better suggestions/improvements on this will be helpful in resolving the problem.
apache-spark - 仅附加基于 groupby 键的新聚合
我必须处理一些每天收到的文件。信息有主键(date,client_id,operation_id)
。所以我创建了一个流,它只将新数据附加到一个增量表中:
这工作正常,但我需要总结这些信息分组(date,client_id)
,所以我创建了另一个从这个操作表到一个新表的流:
这是有效的,但每次我将新数据放入operations
表中时,sparksummarized
都会重新计算。我尝试在第二个流媒体上使用附加模式,但它需要水印,并且日期是 DateType。
有一种方法可以仅根据组键计算新聚合并将它们附加到summarized
?
apache-spark - 如何从 QlikView 连接到 Databricks Delta 表?
我需要使用 databricks Delta Lakes 中的数据创建 QlikView Dashboard。有没有人尝试使用从 QlikView 仪表板连接到 DBFS?我通常使用 JDBC 连接字符串从我的 scala 代码连接到 DBFS。为此,我使用 Spark Simba JDBC 驱动程序。我是否也需要为 qlikview 连接安装此驱动程序?
pyspark - 流聚合未写入接收器
我必须处理一些每天收到的文件。该信息具有主键(日期、client_id、operation_id)。所以我创建了一个流,它只将新数据附加到一个增量表中:
这工作正常,但我需要总结按(日期,client_id)分组的信息,所以我创建了另一个从这个操作表到新表的流。所以我尝试将我的date
字段转换为时间戳,所以我可以在编写聚合流时使用附加模式:
此代码运行,但它不会在接收器中写入任何内容。
为什么它不将结果写入接收器?
apache-spark - 如何删除 Delta Lake 中旧版本的表
正如我从文档中了解到的那样,正如他们所说,delta Lake 允许回滚或“时间旅行”到某个特定版本的表格。但是我怎样才能确保删除数据实际上会在不创建新版本的情况下将其删除?
apache-spark - AWS Glue 可以爬取 Delta Lake 表数据吗?
根据 Databricks 的文章,可以将 delta Lake 与 AWS Glue 集成。但是,我不确定是否也可以在 Databricks 平台之外执行此操作。有人做过吗?另外,是否可以使用 Glue 爬虫添加 Delta Lake 相关元数据?
amazon-s3 - DBFS 使用什么 s3 存储桶?如何获取 DBFS 路径的 S3 位置
我正在尝试将我的 Hive 元数据迁移到 Glue。迁移 delta 表时,当我提供相同的 dbfs 路径时,出现错误 - “无法创建表:关联位置不为空。
当我尝试在 S3 位置创建相同的增量表时,它工作正常。
有没有办法找到数据库指向的 DBFS 路径的 S3 位置?
apache-spark - Delta Lake 创建具有类似结构的表
我在位置“/mnt/events-bronze”有一个青铜级三角洲湖表(events_bronze),数据从kafka流式传输到该表。现在我希望能够从该表中流式传输并使用“foreachBatch”更新到银表(events_silver”。这可以使用青铜表作为源来实现。但是,在初始运行期间,由于 events_silver 不存在,我不断收到错误说 Delta 表不存在,这很明显。那么我该如何创建与 events_bronze 具有相同结构的 events_silver?我找不到 DDL 来做同样的事情。
在初始运行期间,问题是没有为路径“/mnt/events-silver”定义增量湖表。我不确定如何在第一次运行时创建与“/mnt/events-bronze”相同的结构。
delta-lake - Delta Lake 从模式创建表
我在下面的代码中从融合模式注册表中获取了与要创建的表关联的模式:
现在我正在尝试定义一个具有基于此模式的结构的 delta 湖表。但是我不确定如何去做。任何帮助表示赞赏。