“delta-lake”的相关标签问题

0 投票

1 回答

2068 浏览

apache-spark - 在 spark 中写入流数据时，不能在 outputMode() 中使用“更新”

我正在尝试将 spark 中的流数据写入 delta 格式，但看起来它不允许我在outputMode()中使用更新，下面是我的代码和错误消息：

2019-08-30T00:24:28.173

0 投票

1 回答

914 浏览

apache-spark - “SparkSession”对象没有属性“databricks”

databricks 和 spark 的新手，我正在尝试运行以下命令并遇到此错误

错误：'SparkSession' object has no attribute 'databricks'

apache-spark pyspark databricks delta-lake

2019-08-30T18:08:33.423

0 投票

3 回答

2768 浏览

pyspark - 如何使用 pyspark 在 jupyter notebook 中引用 deltalake 表

我正在尝试开始使用DeltaLakesusing Pyspark。

为了能够使用 deltalake，我在 Anaconda shell-prompt 上调用 pyspark 作为 —</p>

这是来自 deltalake 的参考资料 — https://docs.delta.io/latest/quick-start.html

delta Lake 的所有命令在 Anaconda shell-prompt 中都能正常工作。

在 jupyter notebook 上，对 deltalake 表的引用会出错。这是我在 Jupyter Notebook 上运行的代码 -

下面是我在笔记本开始时用来连接到 pyspark 的代码 -

以下是我得到的错误：

Py4JJavaError：调用 o116.save 时出错。：java.lang.ClassNotFoundException：找不到数据源：delta。请在http://spark.apache.org/third-party-projects.html找到包

有什么建议么？

pyspark jupyter-notebook delta-lake

2019-08-31T18:31:53.470

0 投票

1 回答

85 浏览

acid - 使用 delta Lake 表作为对另一个变化的 delta 表的查找

我有一个场景，我使用一个增量表作为另一个增量表的查找表。如果在查找期间，在操作期间将查找值添加到基础表中，它会在我的查找连接中被拾取吗？

acid data-consistency delta-lake

2019-09-03T23:34:39.537

0 投票

1 回答

411 浏览

apache-spark - 如何通过在 spark 或 deltalake 中搜索给定的列名来列出所有表

我正在寻找包含 spark sql 和 delta Lake 中所有列名、表名、创建时间戳的元数据表。我需要能够按给定的列名搜索并列出所有具有该列名的表。

apache-spark delta-lake

2019-09-08T07:36:30.927

0 投票

1 回答

1631 浏览

hadoop - 将增量文件写入 S3 (MinIO) - PySpark 2.4.3

我目前正在尝试将delta-lake parquet文件写入 S3，我在本地将其替换为 MinIO。

我可以完美地将标准parquet文件读/写到S3.

但是，当我使用三角洲湖示例时

将增量配置为 s3

看来我无法写信delta_log/给我的MinIO.

所以我尝试设置：fs.AbstractFileSystem.s3a.impl和fs.s3a.impl。

我正在使用pyspark[sql]==2.4.3我当前使用的venv.

src/.env：

src/spark_session.py：

src/apps/raw_to_parquet.py

bash：

错误hadoop-common: 2.7.3，hadoop-aws: 2.7.3：java.lang.RuntimeException: java.lang.NoSuchMethodException: org.apache.hadoop.fs.s3a.S3AFileSystem.<init>(java.net.URI, org.apache.hadoop.conf.Configuration)

所以有了这个错误，我然后更新到hadoop-common: 2.8.5, hadoop-aws: 2.8.5, 来修复NoSuchMethodException. 因为delta需要：S3AFileSystem

py4j.protocol.Py4JJavaError: An error occurred while calling o89.save. : java.lang.NoSuchMethodError: org.apache.hadoop.security.ProviderUtils.excludeIncompatibleCredentialProviders(Lorg/apache/hadoop/conf/Configuration;Ljava/lang/Class;)Lorg/apache/hadoop/conf/Configuration

所以对我来说，似乎parquet可以毫无问题地写入文件，但是，delta 创建了这些delta_log无法识别的文件夹（我认为？）。

当前源代码。

阅读几个不同的类似问题，但似乎没有人尝试处理delta lake文件。

更新

它目前使用以下设置：

奇怪的是，它只会像这样工作。

如果我尝试设置它sc.conf或hadoop_conf它不起作用，请参阅未注释的代码：

如果有人可以解释这一点，那就太好了。是因为.getOrCreate()？conf没有这个电话似乎不可能设置？运行应用程序时在命令行中除外。

hadoop amazon-s3 pyspark minio delta-lake

2019-09-08T19:36:59.363

0 投票

1 回答

963 浏览

java - 从本地 Spark 作业连接到 Azure Data Lake Gen 2

我正在尝试从本地 Spark 作业连接到我的 ADLS Gen 2 数据湖以读取一些 Databricks 增量表，这些表我以前通过 Databricks Notebook 存储，但我遇到了一个非常奇怪的异常，我可以'整理：

环顾四周，我没有找到很多关于此的提示。一个，我试过是通过配置“spark.hadoop.hive.server2.enable.doAs”，“false”，但它没有帮助。

我正在使用 io.delta 0.3.0、Spark 2.4.2_2.12 和 azure-hadoop 3.2.0。我可以通过 Azure Databricks 集群/笔记本毫无问题地连接到我的第 2 代帐户。

我正在使用如下代码：

java azure apache-spark azure-databricks delta-lake

2019-09-11T16:12:30.510

0 投票

3 回答

1961 浏览

azure-data-factory - 是否可以从 adf 连接到 databricks deltalake 表

我正在寻找一种能够从 ADF 和其他 Azure 服务（如数据目录）连接到 Databricks deltalake 表的方法。我没有看到 ADF 数据源中列出的 databricks 数据存储。

关于类似的问题 -是否可以从 Azure 数据工厂读取 Azure Databricks 表？

@simon_dmorias 似乎建议使用 ODBC 连接来连接到数据块表。

我尝试设置 ODBC 连接，但它需要设置 IR。创建 IR 时我看到了 2 个选项。自托管和链接自托管。我尝试创建自托管 IR，但它需要安装在我的本地桌面上，并且可能更适用于本地 odbc 连接。我无法在我的链接服务上使用 IR。

我已经能够将 powerbi 与 databricks deltalake 表连接起来，并计划在这里使用相同的凭据。这是参考链接 -

https://docs.azuredatabricks.net/user-guide/bi/power-bi.html

任何指导都会有所帮助

azure-data-factory azure-databricks delta-lake

2019-09-13T05:46:33.390

0 投票

0 回答

380 浏览

azure-databricks - 从 EventHub 读取并写入 delta Lake 时找不到 sourceVersion 错误

我正在尝试从 EventHub 中读取数据，并写入 2 delta 湖表，伪代码如下

当我开始我的工作时，它会在消息下方显示“找不到 sourceVersion”消息

知道如何解决吗？

azure-databricks delta-lake

2019-09-15T02:54:00.157

0 投票

1 回答

1269 浏览

apache-spark - 如何在 Spark 中流式传输时删除重复项

我有一个流式传输作业，将数据流式传输到 databricks spark 中的 delta 湖中，并且我试图在流式传输时删除重复项，因此我的 delta 数据没有重复项。这是我到目前为止所拥有的：

我收到错误：py4j.protocol.Py4JJavaError: An error occurred while calling o398.sql. : org.apache.spark.sql.AnalysisException: Table or view not found: eventsDF; line 2 pos 4

但我刚刚开始流式传输这些数据，还没有创建任何表。

apache-spark databricks spark-structured-streaming delta-lake

2019-09-17T04:48:01.173

问题标签 [delta-lake]

Reference