问题标签 [aws-databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
297 浏览

apache-spark - 如何使用 Databrick 访问 AWS 公共数据集?

我是数据砖的新手。我正在为我的学校项目寻找公共大数据数据集,然后我在此链接上遇到了 AWS 公共数据集:https ://registry.opendata.aws/target/

我在 Databricks 上使用 python,但我不知道如何建立与数据的连接。我发现了以下如何指导:

https://databricks.com/wp-content/uploads/2015/08/Databricks-how-to-data-import.pdf?_ga=2.25033139.881714623.1602433762-982722630.1598480448

它提到截屏

我不确定如何找到各自的 access_key、secret_key、AWS_bucket_name 和 mount_name。

0 投票
1 回答
141 浏览

scala - 在 Apache Spark Databricks 上的 Scala 笔记本中,您如何正确地将数组转换为十进制(30,0)类型?

我正在尝试将数组转换为 Decimal(30,0) 以便在动态选择中使用:

但是,当使用以下方法进行投射时:

Databricks 接受了这一点,但签名看起来已经错了: intArrSurrIds: Array[java.math.BigDecimal] = Array(2181890000000,...) // 即 BigDecimal

这导致以下错误:

SQL 语句中的错误:AnalysisException:无法解析.. 由于数据类型不匹配:函数 array_contains 的输入应该是数组,后跟具有相同元素类型的值,但它是 [array<decimal(38,18)>,decimal(30 ,0)]

如何在 Spark Databricks Scala 笔记本中正确转换为 decimal(30,0) 而不是 decimal(38,18) ?

任何帮助表示赞赏!

0 投票
2 回答
668 浏览

scala - 在 Databricks 中调用一次 Trigger 来处理 Kinesis Stream

我正在寻找一种方法来触发我的 Databricks 笔记本一次以处理 Kinesis Stream 并使用以下模式

使用 AWS Kinesis 似乎不可能,这也是 Databricks 文档所建议的。我的问题是我们还能做些什么来实现这一目标?

0 投票
1 回答
120 浏览

python-3.x - 无法从 Databricks 集群 DBFS 将 CSV 文件导入 h2o

我已经在我的 AWS Databricks 集群上成功安装了两个 h2o,然后成功启动了 h2o 服务器:

当我尝试导入存储在我的 Databricks DBFS 中的 iris CSV 文件时:

我收到 H2OResponseError:服务器错误 water.exceptions.H2ONotFoundArgumentException

CSV 文件绝对存在;在同一个 Databricks 笔记本中,我可以将其直接读入 DataFrame 并使用完全相同的完全限定路径查看内容:

我也试过打电话:

但无济于事;我得到 H2OValueError: File /FileStore/tables/iris.csv 不存在。我也尝试过直接从我的本地计算机(C 驱动器)上传文件,但这也没有成功。

我试过不使用完全限定的路径,只指定文件名,但我得到了同样的错误。我已经阅读了 H2O 文档并搜索了网络,但找不到以前遇到过此问题的任何人。

有人可以帮帮我吗?

谢谢。

0 投票
2 回答
227 浏览

databricks - 将 DataBricks API 2.0 与令牌一起使用

我正在尝试使用 Bearer Tokens 访问 DataBricks API 2.0,我收到了 200 个响应,但没有显示结果。

这是我收到的回复

我正在运行这个命令,

0 投票
1 回答
344 浏览

databricks - Databricks Magic Sql - 导出数据

是否可以在 Databricks 中导出“魔术 SQL”命令单元的输出?

我喜欢这样一个事实,即不必转义 SQL 命令并且可以轻松格式化。但是,我似乎无法在其他单元格中使用输出。我想做的是将数据导出到 CSV 文件,但可能会在我写出之前完成对数据框的一些最终操作。

vs (DBricks 格式化以下代码)

但是想象一下,一旦你引入了转义字符串、嵌套连接等。想知道是否有更好的方法在数据块中使用 SQL。

0 投票
1 回答
135 浏览

r - 在 databricks 集群上安装 R 空间包所需的 c 库

R 中的空间包通常依赖于 C 库进行数值计算。如果 R 引擎无法使用默认权限安装这些库,则在安装依赖这些库的 R 包时会出现问题。看来,databricks 集群给 R 带来了这样的障碍。我想有两种方法可以解决这个问题,1)使用相关脚本创建一个 docker 容器来安装软件包或 2)通过 init 脚本安装它们。我认为后一种方法会更容易,但我遇到了一些问题。集群无法启动,因为我的 init 脚本无法执行。见下文-我也尝试过sudo

相关地,这些应该只安装在驱动节点上吗?我看不出他们需要在工作节点上的原因。上面的代码将它安装在我认为的工人和司机身上。要安装在驱动程序上,我想它会是:

0 投票
1 回答
214 浏览

amazon-web-services - Databricks AWS 账户设置 - 出现错误的 AWS 存储 - 缺少权限:PUT、LIST、DELETE

我已经使用 AWS 创建了一个 PREMIUM trail Databricks 账户。我已经设置AWS account了用户访问密钥。

AWS storage按照以下 URL 中的说明进行配置(如下 URL 中的设置存储桶策略)。

https://docs.databricks.com/administration-guide/account-settings/aws-storage.html

但是,我收到如下错误。

提供的 S3 存储桶有效,但没有足够的权限启动 Databricks 部署。请根据教程仔细检查您的设置。缺少权限:PUT、LIST、DELETE

在我使用的上述存储桶策略中,有PUT, LIST,DELETE策略。仍然面临上述错误。

注意:作为跟踪和错误,更改Action如下允许所有操作。但是,仍然得到同样的错误。

0 投票
1 回答
30 浏览

databricks - ADLS - 从 Databricks for SQL 模式访问 ADLS

在 Databricks 中,我们能够在 Python 模式下基于以下身份验证代码访问 ADLS 文件。但是当我尝试对 SQL 模式进行身份验证时,出现以下错误。请帮助我们获取有关如何在 sql 中声明身份验证的信息。

Python :

Sql:参考:

错误 在此处输入图像描述

0 投票
1 回答
45 浏览

azure-storage - AWS Glue 目录能否指向 Azure ADLS 中的数据位置?

我们正在尝试将 AWS Databricks Runtime 配置为使用 AWS Glue 数据目录作为其元存储。在这种环境中,Azure ADLS 是源系统之一。在这种情况下,AWS Glue 目录可以指向 Azure ADLS 中的数据位置吗?