问题标签 [delta-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2068 浏览

apache-spark - 在 spark 中写入流数据时,不能在 outputMode() 中使用“更新”

我正在尝试将 spark 中的流数据写入 delta 格式,但看起来它不允许我在outputMode()中使用更新,下面是我的代码和错误消息:

0 投票
1 回答
914 浏览

apache-spark - “SparkSession”对象没有属性“databricks”

databricks 和 spark 的新手,我正在尝试运行以下命令并遇到此错误

错误:'SparkSession' object has no attribute 'databricks'

0 投票
3 回答
2768 浏览

pyspark - 如何使用 pyspark 在 jupyter notebook 中引用 deltalake 表

我正在尝试开始使用DeltaLakesusing Pyspark

为了能够使用 deltalake,我在 Anaconda shell-prompt 上调用 pyspark 作为 —</p>

这是来自 deltalake 的参考资料 — https://docs.delta.io/latest/quick-start.html

delta Lake 的所有命令在 Anaconda shell-prompt 中都能正常工作。

在 jupyter notebook 上,对 deltalake 表的引用会出错。这是我在 Jupyter Notebook 上运行的代码 -

下面是我在笔记本开始时用来连接到 pyspark 的代码 -

以下是我得到的错误:

Py4JJavaError:调用 o116.save 时出错。:java.lang.ClassNotFoundException:找不到数据源:delta。请在http://spark.apache.org/third-party-projects.html找到包

有什么建议么?

0 投票
1 回答
85 浏览

acid - 使用 delta Lake 表作为对另一个变化的 delta 表的查找

我有一个场景,我使用一个增量表作为另一个增量表的查找表。如果在查找期间,在操作期间将查找值添加到基础表中,它会在我的查找连接中被拾取吗?

0 投票
1 回答
411 浏览

apache-spark - 如何通过在 spark 或 deltalake 中搜索给定的列名来列出所有表

我正在寻找包含 spark sql 和 delta Lake 中所有列名、表名、创建时间戳的元数据表。我需要能够按给定的列名搜索并列出所有具有该列名的表。

0 投票
1 回答
1631 浏览

hadoop - 将增量文件写入 S3 (MinIO) - PySpark 2.4.3

我目前正在尝试将delta-lake parquet文件写入 S3,我在本地将其替换为 MinIO。

我可以完美地将标准parquet文件读/写到S3.

但是,当我使用三角洲湖示例时

将增量配置为 s3

看来我无法写信delta_log/给我的MinIO.

所以我尝试设置:fs.AbstractFileSystem.s3a.implfs.s3a.impl

我正在使用pyspark[sql]==2.4.3我当前使用的venv.

src/.env

src/spark_session.py

src/apps/raw_to_parquet.py


bash

错误hadoop-common: 2.7.3hadoop-aws: 2.7.3java.lang.RuntimeException: java.lang.NoSuchMethodException: org.apache.hadoop.fs.s3a.S3AFileSystem.<init>(java.net.URI, org.apache.hadoop.conf.Configuration)

所以有了这个错误,我然后更新到hadoop-common: 2.8.5, hadoop-aws: 2.8.5, 来修复NoSuchMethodException. 因为delta需要:S3AFileSystem

py4j.protocol.Py4JJavaError: An error occurred while calling o89.save. : java.lang.NoSuchMethodError: org.apache.hadoop.security.ProviderUtils.excludeIncompatibleCredentialProviders(Lorg/apache/hadoop/conf/Configuration;Ljava/lang/Class;)Lorg/apache/hadoop/conf/Configuration

所以对我来说,似乎parquet可以毫无问题地写入文件,但是,delta 创建了这些delta_log无法识别的文件夹(我认为?)。

当前源代码

阅读几个不同的类似问题,但似乎没有人尝试处理delta lake文件。

更新

它目前使用以下设置:

奇怪的是,它只会像这样工作。

如果我尝试设置它sc.confhadoop_conf它不起作用,请参阅未注释的代码:

如果有人可以解释这一点,那就太好了。是因为.getOrCreate()conf没有这个电话似乎不可能设置?运行应用程序时在命令行中除外。

0 投票
1 回答
963 浏览

java - 从本地 Spark 作业连接到 Azure Data Lake Gen 2

我正在尝试从本地 Spark 作业连接到我的 ADLS Gen 2 数据湖以读取一些 Databricks 增量表,这些表我以前通过 Databricks Notebook 存储,但我遇到了一个非常奇怪的异常,我可以'整理:

环顾四周,我没有找到很多关于此的提示。一个,我试过是通过配置“spark.hadoop.hive.server2.enable.doAs”,“false”,但它没有帮助。

我正在使用 io.delta 0.3.0、Spark 2.4.2_2.12 和 azure-hadoop 3.2.0。我可以通过 Azure Databricks 集群/笔记本毫无问题地连接到我的第 2 代帐户。

我正在使用如下代码:

0 投票
3 回答
1961 浏览

azure-data-factory - 是否可以从 adf 连接到 databricks deltalake 表

我正在寻找一种能够从 ADF 和其他 Azure 服务(如数据目录)连接到 Databricks deltalake 表的方法。我没有看到 ADF 数据源中列出的 databricks 数据存储。

关于类似的问题 -是否可以从 Azure 数据工厂读取 Azure Databricks 表?

@simon_dmorias 似乎建议使用 ODBC 连接来连接到数据块表。

我尝试设置 ODBC 连接,但它需要设置 IR。创建 IR 时我看到了 2 个选项。自托管和链接 自托管。我尝试创建自托管 IR,但它需要安装在我的本地桌面上,并且可能更适用于本地 odbc 连接。我无法在我的链接服务上使用 IR。

我已经能够将 powerbi 与 databricks deltalake 表连接起来,并计划在这里使用相同的凭据。这是参考链接 -

https://docs.azuredatabricks.net/user-guide/bi/power-bi.html

任何指导都会有所帮助

0 投票
0 回答
380 浏览

azure-databricks - 从 EventHub 读取并写入 delta Lake 时找不到 sourceVersion 错误

我正在尝试从 EventHub 中读取数据,并写入 2 delta 湖表,伪代码如下

当我开始我的工作时,它会在消息下方显示“找不到 sourceVersion”消息

知道如何解决吗?

0 投票
1 回答
1269 浏览

apache-spark - 如何在 Spark 中流式传输时删除重复项

我有一个流式传输作业,将数据流式传输到 databricks spark 中的 delta 湖中,并且我试图在流式传输时删除重复项,因此我的 delta 数据没有重复项。这是我到目前为止所拥有的:

我收到错误:py4j.protocol.Py4JJavaError: An error occurred while calling o398.sql. : org.apache.spark.sql.AnalysisException: Table or view not found: eventsDF; line 2 pos 4

但我刚刚开始流式传输这些数据,还没有创建任何表。