问题标签 [spark-notebook]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 在数据块中过滤 %[A-Za-z]%
我正在尝试table.column LIKE '%[A-Za-z]%
在 Databricks 笔记本中使用,但它没有返回任何值。
它在 SQL server 中工作,但似乎在 Pysql 中不起作用。
有谁知道 Databricks 中的替代方案是什么?
azure - Azure databricks CI CD 管道用于删除生产中的笔记本
我有一个 CI/CD 管道,可以在 Azure Databricks 工作区中将笔记本从开发部署到生产。
但是,当这些笔记本已从开发中删除并且不再位于 Azure git 存储库中时,它不会从生产中删除这些笔记本。
作为构建/发布过程的一部分,我想删除所有已从源中删除的笔记本。有没有办法做到这一点?
pyspark - Databricks Delta 文件添加新分区会导致旧分区不可读
我有一个笔记本,我正在使用它来加载历史记录。每次加载 6 个月的数据,从2018-10-01
. 我的增量文件按 calendar_date 分区
初始加载后,我能够读取增量文件并查看数据就好了。
但是在第二次加载 date 之后2019-01-01 to 2019-06-30
,以前的分区没有使用 delta 格式正常加载。
像这样读取我的源增量文件会引发我的错误说
file dosen't exist
然而,像下面这样的阅读就可以很好地知道可能出了什么问题
azure-synapse - 从 Azure Synapse spark notebook 连接到 SQL-Pool 表
我正在寻找如何使用 Scala Spark 从另一个工作区的 SQL 池中读取 Azure Synapse 表,但没有成功(因为它显然是唯一的选择)。我在https://docs.microsoft.com/en-us/azure/synapse-analytics/spark/synapse-spark-sql-pool-import-export#use-pyspark-with-the-connector中发现了非常有用的示例,但是不适合我的情况。
我想知道是否可以将链接服务作为选项添加到以下查询?
像这样的东西:
我找不到任何关于此的文档。
我的问题是我正在使用专用网络,两个突触工作区都通过专用端点连接,它们运行良好,因为我可以使用管道连接到 SQL 池。我的目标是使用 Spark Notebook 实现相同的目标。
出于某种原因,我收到了错误:
错误:com.microsoft.spark.sqlanalytics.exception.SQLAnalyticsConnectorException:com.microsoft.sqlserver.jdbc.SQLServerException:数据泄露到“DATALAKE_NAME.dfs.core.windows.net”被阻止。将目标添加到允许的数据泄露列表,然后重试。
但我不明白为什么它告诉我“数据泄露到 DATALAKE 被阻止?我试图访问 SQL-Pool,而不是数据湖,无论如何我也刚刚为数据湖创建了一个私有端点,但它仍然无法正常工作。
有谁知道这是否可能?
python - 如何在 Pyspark 中创建一个序列,当行从 0 变为 1 时重置,并在全部为 1 时递增
我有一个像这样的 pyspark 数据框,需要 SEQ 输出,如下所示:
不确定数据是否正确显示。所以附上图片:在此处输入图片描述
我做了这样的事情:
不确定我是否可以领先或落后于 SEQ。请帮助如何做到这一点
python - 来自 Azure 数据工厂或本地 if 语句的 databricks Python 笔记本
我有一个 Databricks Python 笔记本,它使用以下命令从 ADF 读取参数:
我可以在笔记本代码中执行 IF 语句或类似的操作,这样当我以交互方式运行笔记本时,它会用普通赋值代替对 dbutils 的调用?从逻辑上讲,我想要类似的东西:
如果这样的事情是可能的,它胜过每次修改笔记本的其余部分时都必须注释掉 dbutils 调用的替代方法:) 我做了类似的事情,以便可以从 Jupyter/PyCharm 或从命令行,但我不知道任何告诉 python 解释器它是从 ADF 调用的。
非常感谢!
azure - Databricks 笔记本时间表
我已经安排了一个 ADB 笔记本按计划运行。如果集群关闭,笔记本会运行吗?现在集群很忙,所以无法停下来尝试一下。笔记本会启动集群并运行还是等待集群启动?
python - py4j.protocol.Py4JJavaError,作业因阶段失败而中止
我创建字典累加器时发生了我的问题。我正在尝试使用数据框中的数据填充嵌套字典。字典是 2 层深,第二层有一个集合作为值,如下所示:
我在 AWS sagemaker notebook 上运行我的代码,我需要它在那个环境中运行。我正在使用 PySpark 内核。我的累加器定义如下:
上面的代码运行良好,我知道这是因为我在 sagemaker 笔记本中单独运行它。下一个片段会导致程序崩溃:
这是错误日志
python - Azure Synapse Pipeline Notebook 返回错误
我想在 Azure Synapse 上创建管道,其中一个流程是使用笔记本读取、验证然后继续管道或停止管道
我已经在 stackoverflow 和 google 中进行了研究,但我找不到具体的方法。我已经尝试过 break 和 mssparkutils.notebook.exit 但它不起作用
mysql - 如何根据 MySQL/SQLAlchemy 查询输出在 Hue 中设置变量?
这与这个 Impala question相关,但更笼统。如何根据编辑器或笔记本中的查询输出更改变量的值?此答案仅显示如何定义变量。