问题标签 [azure-databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4911 浏览

pyspark - 如何在 Databrick 中截断和/或使用通配符

我正在尝试在 databricks 中编写一个脚本,该脚本将根据文件名中的某些字符或仅根据文件中的日期戳来选择文件。

例如,以下文件如下所示:

LCMS_MRD_Delta_LoyaltyAccount_1992_2018-12-22 06-07-31

我在 Databricks 中创建了以下代码:

使用上面的代码,我尝试使用以下方法选择文件:

但是,如果您仔细观察,您会注意到日期戳和时间戳之间有一个空格,即在 22 和 06 之间

LCMS_MRD_Delta_LoyaltyAccount_1992_2018-12-22 06 -07-31

这是因为如果这个空间阻止了我上面的代码工作。

我认为 Databricks 不支持通配符,因此以下内容不起作用:

有人曾经建议截断时间戳。

有人可以让我知道是否:

A.TRUNCATING 将解决这个问题 B.我的代码有办法吗LCMS_MRD_Delta_LoyaltyAccount_1992_%s.csv'% now

选择整个文件?请记住,我绝对需要根据当前日期进行选择。我只想能够使用我的代码在文件上进行选择。

0 投票
2 回答
3941 浏览

azure - Azure Databricks:访问防火墙后面的 Blob 存储

我正在从 Azure Databricks Notebook 读取 Azure Blob 存储帐户(第 2 代)上的文件。两种服务都在同一地区(西欧)。一切正常,除非我在存储帐户前面添加防火墙。我已选择允许“受信任的 Microsoft 服务”:

Azure 门户存储帐户 - 防火墙

但是,现在运行笔记本最终会出现拒绝访问错误:

我尝试直接从 Spark 访问存储,并使用 安装它dbutils,但同样的事情。

我会假设 Azure Databricks 算作受信任的 Microsoft 服务?此外,我找不到有关可添加到防火墙规则中的 Databricks 区域 IP 范围的可靠信息。

0 投票
4 回答
3514 浏览

pyspark - Databricks PySpark Job 不断被取消

我在 Azure 上使用 Databricks 笔记本,我有一个非常好的 Pyspark 笔记本,昨天一整天都运行良好。但是在一天结束的时候,我注意到我在我知道以前工作的代码上遇到了一些奇怪的错误:org.apache.spark.SparkException: Job aborted due to stage failure: Task from application

但是因为太晚了,我把它留到了今天。今天我尝试创建一个新的集群并运行代码,这一次它只是一直说我的工作被“取消”了

事实上,我只是尝试运行 1 行代码:

甚至被取消了。

编辑:

这是来自 Azure 的 std 错误日志:

0 投票
1 回答
3231 浏览

python - 如何将 SQL 查询的结果从 Databricks 导出到 Azure Data Lake Store

我正在尝试将 Databricks 中 spark.sql 查询的结果导出到 Azure Data Lake Store - ADLS 中的文件夹

我正在查询的表也在 ADLS 中。

我已经使用以下命令从 Databricks 访问了 ADLS 中的文件:

我正在使用以下命令查询表:

然后,我尝试使用以下命令将结果导出到 Azure 中的文件夹:

这里有两个奇怪的问题:

  1. 我已指定查询 load_id = 1199,虽然没有 load_id = 1199,但查询仍然成功。

  2. 如果第一个“try”失败,我希望第二个“try”语句失败,但第二个 try 语句运行第一个“try”语句的问候。

有人可以让我知道我要去哪里错了吗?

该表可以在这里 查看

0 投票
2 回答
12544 浏览

databricks - 如何使用 Databricks dbutils 从文件夹中删除所有文件

有人可以让我知道如何使用 databricks dbutils 从文件夹中删除所有文件。我尝试了以下方法,但不幸的是,Databricks 不支持通配符。

谢谢

0 投票
3 回答
1237 浏览

azure-resource-manager - 使用 ARM 模板创建 Azure Databricks 令牌

我需要使用 ARM 模板在 Azure Databricks 中创建一个令牌。我能够使用 ARM 模板创建 Azure Databricks,但无法使用 ARM 模板在 Azure Databricks 中创建令牌

以下是我用来创建 Azure Databricks 的模板

请让我知道如何使用 ARM 模板在 Azure Databricks 中创建令牌

0 投票
3 回答
24346 浏览

python - 使用 dbutils 在 Databricks 中上传后从目录中删除文件

来自 StackOverflow 的一个非常聪明的人帮助我将文件从 Databricks 复制到一个目录: copyfiles

一旦文件被复制,我将使用相同的原则删除文件,如链接所示:

但是,我收到了错误:

TypeError: '/mnt/adls2/demo/target/' 有错误的类型 - 需要类 bool。

有人可以让我知道如何解决这个问题。我认为在最初使用命令复制文件后删除文件很简单dbutils.fs.rm

0 投票
1 回答
10400 浏览

scala - 如何重命名保存在 Azure 数据湖中的文件

我尝试使用数据块中的 scala 合并 Datalake 中的两个文件,并使用以下代码将其保存回 Datalake:

但是,文件 final_data.csv 保存为一个目录,而不是一个包含多个文件的文件,并且实际的 .csv 文件保存为“part-00000-tid-dddddddddd-xxxxxxxxxx.csv”。

如何重命名此文件以便可以将其移动到另一个目录?

0 投票
0 回答
294 浏览

apache-spark - 无法使用 mongo db api 连接到 Azure Cosmos Db

我正在尝试使用 mongo db api(spark mongo db 连接器)连接到 azure cosmos db,以将数据导出到 hdfs,但出现以下异常:

以下是完整的堆栈跟踪:

添加了 Maven 依赖项:

代码 :

供参考 :

implicitDS.count() 给出 0

我正在使用 MongoSplitVectorPartitioner。更新了完整的堆栈跟踪。

0 投票
1 回答
1344 浏览

scala - 无法从 azure databricks 连接到 sql server 托管实例

我正在尝试从数据块连接到 Azure Sql 托管实例。我正在使用 Scala 连接到它。我从Microsoft 网站复制的代码

我的实际 scala 代码:(我已经更改了凭据和 IP。但我确保它们是正确的,因为我从 sql server 托管实例选项中的连接字符串中复制了它们)

错误 :

另一方面 :

  1. 我能够从同一 Azure 订阅上的 VM 连接到同一托管实例(使用 SSMS)
  2. 我用 .Net 编写并托管在该 VM 上的自定义应用程序也能够连接到同一实例

此外,我无法从我在上述 VM 上使用 spark shell 执行的 scala 代码连接到同一个实例。但我得到的错误是不同的。请在下面查找错误。