问题标签 [delta-lake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 在 spark 中写入流数据时,不能在 outputMode() 中使用“更新”
我正在尝试将 spark 中的流数据写入 delta 格式,但看起来它不允许我在outputMode()中使用更新,下面是我的代码和错误消息:
apache-spark - “SparkSession”对象没有属性“databricks”
databricks 和 spark 的新手,我正在尝试运行以下命令并遇到此错误
错误:'SparkSession' object has no attribute 'databricks'
pyspark - 如何使用 pyspark 在 jupyter notebook 中引用 deltalake 表
我正在尝试开始使用DeltaLakes
using Pyspark
。
为了能够使用 deltalake,我在 Anaconda shell-prompt 上调用 pyspark 作为 —</p>
这是来自 deltalake 的参考资料 — https://docs.delta.io/latest/quick-start.html
delta Lake 的所有命令在 Anaconda shell-prompt 中都能正常工作。
在 jupyter notebook 上,对 deltalake 表的引用会出错。这是我在 Jupyter Notebook 上运行的代码 -
下面是我在笔记本开始时用来连接到 pyspark 的代码 -
以下是我得到的错误:
Py4JJavaError:调用 o116.save 时出错。:java.lang.ClassNotFoundException:找不到数据源:delta。请在http://spark.apache.org/third-party-projects.html找到包
有什么建议么?
acid - 使用 delta Lake 表作为对另一个变化的 delta 表的查找
我有一个场景,我使用一个增量表作为另一个增量表的查找表。如果在查找期间,在操作期间将查找值添加到基础表中,它会在我的查找连接中被拾取吗?
apache-spark - 如何通过在 spark 或 deltalake 中搜索给定的列名来列出所有表
我正在寻找包含 spark sql 和 delta Lake 中所有列名、表名、创建时间戳的元数据表。我需要能够按给定的列名搜索并列出所有具有该列名的表。
hadoop - 将增量文件写入 S3 (MinIO) - PySpark 2.4.3
我目前正在尝试将delta-lake
parquet
文件写入 S3,我在本地将其替换为 MinIO。
我可以完美地将标准parquet
文件读/写到S3
.
但是,当我使用三角洲湖示例时
将增量配置为 s3
看来我无法写信delta_log/
给我的MinIO
.
所以我尝试设置:fs.AbstractFileSystem.s3a.impl
和fs.s3a.impl
。
我正在使用pyspark[sql]==2.4.3
我当前使用的venv
.
src/.env
:
src/spark_session.py
:
src/apps/raw_to_parquet.py
bash
:
错误hadoop-common: 2.7.3
,hadoop-aws: 2.7.3
:java.lang.RuntimeException: java.lang.NoSuchMethodException: org.apache.hadoop.fs.s3a.S3AFileSystem.<init>(java.net.URI, org.apache.hadoop.conf.Configuration)
所以有了这个错误,我然后更新到hadoop-common: 2.8.5
, hadoop-aws: 2.8.5
, 来修复NoSuchMethodException
. 因为delta
需要:S3AFileSystem
py4j.protocol.Py4JJavaError: An error occurred while calling o89.save.
: java.lang.NoSuchMethodError: org.apache.hadoop.security.ProviderUtils.excludeIncompatibleCredentialProviders(Lorg/apache/hadoop/conf/Configuration;Ljava/lang/Class;)Lorg/apache/hadoop/conf/Configuration
所以对我来说,似乎parquet
可以毫无问题地写入文件,但是,delta 创建了这些delta_log
无法识别的文件夹(我认为?)。
当前源代码。
阅读几个不同的类似问题,但似乎没有人尝试处理delta lake
文件。
更新
它目前使用以下设置:
奇怪的是,它只会像这样工作。
如果我尝试设置它sc.conf
或hadoop_conf
它不起作用,请参阅未注释的代码:
如果有人可以解释这一点,那就太好了。是因为.getOrCreate()
?conf
没有这个电话似乎不可能设置?运行应用程序时在命令行中除外。
java - 从本地 Spark 作业连接到 Azure Data Lake Gen 2
我正在尝试从本地 Spark 作业连接到我的 ADLS Gen 2 数据湖以读取一些 Databricks 增量表,这些表我以前通过 Databricks Notebook 存储,但我遇到了一个非常奇怪的异常,我可以'整理:
环顾四周,我没有找到很多关于此的提示。一个,我试过是通过配置“spark.hadoop.hive.server2.enable.doAs”,“false”,但它没有帮助。
我正在使用 io.delta 0.3.0、Spark 2.4.2_2.12 和 azure-hadoop 3.2.0。我可以通过 Azure Databricks 集群/笔记本毫无问题地连接到我的第 2 代帐户。
我正在使用如下代码:
azure-data-factory - 是否可以从 adf 连接到 databricks deltalake 表
我正在寻找一种能够从 ADF 和其他 Azure 服务(如数据目录)连接到 Databricks deltalake 表的方法。我没有看到 ADF 数据源中列出的 databricks 数据存储。
关于类似的问题 -是否可以从 Azure 数据工厂读取 Azure Databricks 表?
@simon_dmorias 似乎建议使用 ODBC 连接来连接到数据块表。
我尝试设置 ODBC 连接,但它需要设置 IR。创建 IR 时我看到了 2 个选项。自托管和链接 自托管。我尝试创建自托管 IR,但它需要安装在我的本地桌面上,并且可能更适用于本地 odbc 连接。我无法在我的链接服务上使用 IR。
我已经能够将 powerbi 与 databricks deltalake 表连接起来,并计划在这里使用相同的凭据。这是参考链接 -
https://docs.azuredatabricks.net/user-guide/bi/power-bi.html
任何指导都会有所帮助
azure-databricks - 从 EventHub 读取并写入 delta Lake 时找不到 sourceVersion 错误
我正在尝试从 EventHub 中读取数据,并写入 2 delta 湖表,伪代码如下
当我开始我的工作时,它会在消息下方显示“找不到 sourceVersion”消息
知道如何解决吗?
apache-spark - 如何在 Spark 中流式传输时删除重复项
我有一个流式传输作业,将数据流式传输到 databricks spark 中的 delta 湖中,并且我试图在流式传输时删除重复项,因此我的 delta 数据没有重复项。这是我到目前为止所拥有的:
我收到错误:py4j.protocol.Py4JJavaError: An error occurred while calling o398.sql.
: org.apache.spark.sql.AnalysisException: Table or view not found: eventsDF; line 2 pos 4
但我刚刚开始流式传输这些数据,还没有创建任何表。