问题标签 [spark-notebook]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
107 浏览

apache-spark - 在数据块中过滤 %[A-Za-z]%

我正在尝试table.column LIKE '%[A-Za-z]%在 Databricks 笔记本中使用,但它没有返回任何值。

它在 SQL server 中工作,但似乎在 Pysql 中不起作用。

有谁知道 Databricks 中的替代方案是什么?

0 投票
1 回答
315 浏览

azure - Azure databricks CI CD 管道用于删除生产中的笔记本

我有一个 CI/CD 管道,可以在 Azure Databricks 工作区中将笔记本从开发部署到生产。

但是,当这些笔记本已从开发中删除并且不再位于 Azure git 存储库中时,它不会从生产中删除这些笔记本。

作为构建/发布过程的一部分,我想删除所有已从源中删除的笔记本。有没有办法做到这一点?

0 投票
1 回答
250 浏览

pyspark - Databricks Delta 文件添加新分区会导致旧分区不可读

我有一个笔记本,我正在使用它来加载历史记录。每次加载 6 个月的数据,从2018-10-01. 我的增量文件按 calendar_date 分区

初始加载后,我能够读取增量文件并查看数据就好了。

但是在第二次加载 date 之后2019-01-01 to 2019-06-30,以前的分区没有使用 delta 格式正常加载。

像这样读取我的源增量文件会引发我的错误说

file dosen't exist

然而,像下面这样的阅读就可以很好地知道可能出了什么问题

0 投票
0 回答
835 浏览

azure-synapse - 从 Azure Synapse spark notebook 连接到 SQL-Pool 表

我正在寻找如何使用 Scala Spark 从另一个工作区的 SQL 池中读取 Azure Synapse 表,但没有成功(因为它显然是唯一的选择)。我在https://docs.microsoft.com/en-us/azure/synapse-analytics/spark/synapse-spark-sql-pool-import-export#use-pyspark-with-the-connector中发现了非常有用的示例,但是不适合我的情况。

我想知道是否可以将链接服务作为选项添加到以下查询?

像这样的东西:

我找不到任何关于此的文档。

我的问题是我正在使用专用网络,两个突触工作区都通过专用端点连接,它们运行良好,因为我可以使用管道连接到 SQL 池。我的目标是使用 Spark Notebook 实现相同的目标。

出于某种原因,我收到了错误:

错误:com.microsoft.spark.sqlanalytics.exception.SQLAnalyticsConnectorException:com.microsoft.sqlserver.jdbc.SQLServerException:数据泄露到“DATALAKE_NAME.dfs.core.windows.net”被阻止。将目标添加到允许的数据泄露列表,然后重试。

但我不明白为什么它告诉我“数据泄露到 DATALAKE 被阻止?我试图访问 SQL-Pool,而不是数据湖,无论如何我也刚刚为数据湖创建了一个私有端点,但它仍然无法正常工作。

有谁知道这是否可能?

0 投票
0 回答
60 浏览

python - 如何在 Pyspark 中创建一个序列,当行从 0 变为 1 时重置,并在全部为 1 时递增

我有一个像这样的 pyspark 数据框,需要 SEQ 输出,如下所示:

不确定数据是否正确显示。所以附上图片:在此处输入图片描述

我做了这样的事情:

不确定我是否可以领先或落后于 SEQ。请帮助如何做到这一点

0 投票
2 回答
328 浏览

python - 来自 Azure 数据工厂或本地 if 语句的 databricks Python 笔记本

我有一个 Databricks Python 笔记本,它使用以下命令从 ADF 读取参数:

我可以在笔记本代码中执行 IF 语句或类似的操作,这样当我以交互方式运行笔记本时,它会用普通赋值代替对 dbutils 的调用?从逻辑上讲,我想要类似的东西:

如果这样的事情是可能的,它胜过每次修改笔记本的其余部分时都必须注释掉 dbutils 调用的替代方法:) 我做了类似的事情,以便可以从 Jupyter/PyCharm 或从命令行,但我不知道任何告诉 python 解释器它是从 ADF 调用的。

非常感谢!

0 投票
1 回答
284 浏览

azure - Databricks 笔记本时间表

我已经安排了一个 ADB 笔记本按计划运行。如果集群关闭,笔记本会运行吗?现在集群很忙,所以无法停下来尝试一下。笔记本会启动集群并运行还是等待集群启动?

0 投票
0 回答
82 浏览

python - py4j.protocol.Py4JJavaError,作业因阶段失败而中止

我创建字典累加器时发生了我的问题。我正在尝试使用数据框中的数据填充嵌套字典。字典是 2 层深,第二层有一个集合作为值,如下所示:

我在 AWS sagemaker notebook 上运行我的代码,我需要它在那个环境中运行。我正在使用 PySpark 内核。我的累加器定义如下:

上面的代码运行良好,我知道这是因为我在 sagemaker 笔记本中单独运行它。下一个片段会导致程序崩溃:

这是错误日志

0 投票
1 回答
284 浏览

python - Azure Synapse Pipeline Notebook 返回错误

我想在 Azure Synapse 上创建管道,其中一个流程是使用笔记本读取、验证然后继续管道或停止管道

我已经在 stackoverflow 和 google 中进行了研究,但我找不到具体的方法。我已经尝试过 break 和 mssparkutils.notebook.exit 但它不起作用

0 投票
0 回答
22 浏览

mysql - 如何根据 MySQL/SQLAlchemy 查询输出在 Hue 中设置变量?

这与这个 Impala question相关,但更笼统。如何根据编辑器或笔记本中的查询输出更改变量的值?此答案仅显示如何定义变量。