问题标签 [azure-databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
418 浏览

apache-zeppelin - 如何将 Zeppelin 笔记本迁移到 Azure Databricks

我正在研究将 zeppelin 笔记本迁移到 Azure Databricks 的项目,但我没有找到任何相关文档。对此的任何指导将不胜感激。

0 投票
1 回答
3434 浏览

azure-hdinsight - 在 Azure Databricks 群集上使用 HDInsights SPARK 的优势

我浏览了多个文档,但无法获得使用 HDInsigths spark 集群与 Azure Databricks 集群相比的优势列表。这两者之间是否有任何关键区别。我基本上需要 HDInsights 支持但 Azure Databricks 不支持的功能列表。

0 投票
1 回答
3270 浏览

apache-spark-sql - 将 CURRENT_TIMESTAMP() 时间从 UTC 转换为 ET

我正在使用Spark SQL 的CURRENT_TIMESTAMP()时间函数更新我的数据框字段Create Date 。返回的值采用 UTC 时区。

我想要东部时间的值(处理夏令时)。当我将 SQL 查询传递给sqlContext.sql时,我想进行时区转换。我怎样才能做到这一点?

谢谢。

0 投票
1 回答
261 浏览

azure - “删除 Databricks 作业”是否会立即停止集群上的代码执行?

我想知道删除作业适用于 Databricks。它是否在终止作业集群时立即终止代码执行?如果我使用微批处理,它是否确保最后一批被处理然后终止,或者它只是突然终止,可能导致数据丢失/数据损坏?我怎样才能避免这种情况?

另外,当我删除正在运行的集群上的作业时会发生什么?

0 投票
1 回答
2048 浏览

python - 从 Azure Datafactory 管道中的 Databricks Notebook 获取异常

我已将 Databricks Notebook 添加到 Datafactory 管道。如果 notebook 内部的 Python 脚本抛出异常,则管道不会提及此异常。我知道有一个 runPageUrl 可以看到结果。但我希望管道知道 Python 脚本中是否发生错误。有没有办法将异常信息传递给管道?

0 投票
1 回答
451 浏览

apache-spark - 我可以从 azure databricks notebook 对 cosmos-db(图形)运行 gremlin 查询吗?

Gremlin 是否直接集成到 azure databricks notebook 中?

我有一张 cosmosDb 的图表,我想运行一些 gremlin 查询。例如

g.V().hasLabel('x').out('y').out('z')

我从 azure 门户运行查询,但对于大量数据,它会抛出

["请求率大"]

切换到 Azure databricks,我创建了一个集群,添加了“azure-cosmosdb-spark”库,并且从 python 笔记本中,a 只能运行 sql 查询,如“SELECT * FROM c”

我试过使用 spark-gremlin 和 hadoop-gremlin 库,但我现在唯一能看到的方法是将我的所有节点和边加载到一个数据帧(一个标签一个标签)中,然后将其更改为 graphFrame,然后,在我在这里重建图表之后,我可以进行一些遍历查询,但 Gremlin 还不能。(并且拥有数百万个节点和边缘,我不知道这对我有多大帮助)。

我想知道是否支持从 cosmosDb 上的笔记本直接进行 gremlin 查询,或者至少将图形直接迁移到 dataFrame 中?

0 投票
1 回答
1374 浏览

azure - Databricks 上的 PySpark:读取从 Azure Blob 存储复制的 CSV 文件会导致 java.io.FileNotFoundException

我正在运行 Azure Databricks 4.3(包括 Apache Spark 2.3.1、Scala 2.11)。

我通过添加绝对值将CSV文件从 Azure Blob 存储复制到 Databricks 集群中,并使用dbutils.fs.cp到磁盘中:file:local_path

然后,当我尝试使用file:前面添加的相同路径读取文件时:

我收到一条错误消息,指出给定路径不存在:

当我挂载 Azure Blob 存储容器时,如下所述,然后我可以使用上面相同的代码段,使用local_path挂载目录中文件的绝对值,使用 Spark 正确读取文件:

https://docs.databricks.com/spark/latest/data-sources/azure/azure-storage.html#mount-azure-blob-storage-containers-with-dbfs

是否可以读取CSV从 Azure Blob 存储复制的文件,或者使用安装 Azure Blob 存储容器的解决方案是首选的解决方案吗?

0 投票
1 回答
2988 浏览

azure - 如何通过 URL 从 Azure Databricks 中的 DBFS 下载

记录here它提到我应该从以下URL从Data Bricks文件系统下载文件:

但是当我尝试使用我自己的“o=”参数从 URL 下载它时,类似于:

https://westeurope.azuredatabricks.net/?o=1234567890123456/files/my-stuff/my-file.txt

它只给出以下错误:

我使用了错误的 URL 还是文档错误?我已经找到了一个已回答的类似问题,但该问题似乎不适合 Azure Databricks 文档,并且可能适用于 AWS Databricks:

Databricks:将 dbfs:/FileStore 文件下载到我的本地计算机?

在此先感谢您的帮助

0 投票
2 回答
5810 浏览

azure - 将 Data Lake Storage Gen 2 与 Databricks 连接起来

我正在尝试将 MS Azure 数据块与数据湖存储 v2 连接,但无法匹配客户端、机密范围和密钥。

我在 Azure 数据湖 v2 中有数据。我正在尝试遵循以下说明:

https://docs.azuredatabricks.net/spark/latest/data-sources/azure/azure-datalake-gen2.html#requirements-azure-data-lake

我创建了一个角色为“存储 Blob 数据贡献者”的“服务原则”,获得

我在 Azure Keyvault 和 Databricks 中使用键和值创建了秘密范围

当我尝试下面的代码时,身份验证无法识别秘密范围和密钥。从文档中我不清楚是否需要使用 Azure Keyvault 或 Databricks 机密范围。

如果有人可以提供帮助,请告知/确认:

CLIENT-ID 应该是什么:我知道这是来自存储帐户;

在 Azure Keyvault 或 Databricks 中应该在哪里创建 SCOPE-NAME 和 KEY-VALUE?

0 投票
2 回答
3778 浏览

pyspark - 从 azure databricks 中删除 azure sql 数据库行

我在 Azure SQL 数据库中有一个表,我想从中删除基于某些条件的选定行或 Azure Databricks 中的整个表。目前我正在使用 JDBC 的truncate属性来截断整个表而不删除它,然后用新的数据帧重新编写它。

但展望未来,我不想每次都截断和覆盖整个表,而是使用删除命令。我也无法使用下推查询来实现这一点。对此的任何帮助将不胜感激。