“aws-databricks”的相关标签问题

0 投票

1 回答

297 浏览

apache-spark - 如何使用 Databrick 访问 AWS 公共数据集？

我是数据砖的新手。我正在为我的学校项目寻找公共大数据数据集，然后我在此链接上遇到了 AWS 公共数据集：https ://registry.opendata.aws/target/

我在 Databricks 上使用 python，但我不知道如何建立与数据的连接。我发现了以下如何指导：

https://databricks.com/wp-content/uploads/2015/08/Databricks-how-to-data-import.pdf?_ga=2.25033139.881714623.1602433762-982722630.1598480448

它提到

我不确定如何找到各自的 access_key、secret_key、AWS_bucket_name 和 mount_name。

2020-10-11T19:05:06.743

0 投票

1 回答

141 浏览

scala - 在 Apache Spark Databricks 上的 Scala 笔记本中，您如何正确地将数组转换为十进制（30,0）类型？

我正在尝试将数组转换为 Decimal(30,0) 以便在动态选择中使用：

但是，当使用以下方法进行投射时：

Databricks 接受了这一点，但签名看起来已经错了： intArrSurrIds: Array[java.math.BigDecimal] = Array(2181890000000,...) // 即 BigDecimal

这导致以下错误：

SQL 语句中的错误：AnalysisException：无法解析.. 由于数据类型不匹配：函数 array_contains 的输入应该是数组，后跟具有相同元素类型的值，但它是 [array<decimal(38,18)>，decimal(30 ,0)]

如何在 Spark Databricks Scala 笔记本中正确转换为 decimal(30,0) 而不是 decimal(38,18) ？

任何帮助表示赞赏！

scala apache-spark apache-spark-sql databricks aws-databricks

2020-11-02T12:39:27.083

0 投票

2 回答

668 浏览

scala - 在 Databricks 中调用一次 Trigger 来处理 Kinesis Stream

我正在寻找一种方法来触发我的 Databricks 笔记本一次以处理 Kinesis Stream 并使用以下模式

使用 AWS Kinesis 似乎不可能，这也是 Databricks 文档所建议的。我的问题是我们还能做些什么来实现这一目标？

scala databricks spark-structured-streaming amazon-kinesis aws-databricks

2020-12-13T22:45:13.937

0 投票

1 回答

120 浏览

python-3.x - 无法从 Databricks 集群 DBFS 将 CSV 文件导入 h2o

我已经在我的 AWS Databricks 集群上成功安装了两个 h2o，然后成功启动了 h2o 服务器：

当我尝试导入存储在我的 Databricks DBFS 中的 iris CSV 文件时：

我收到 H2OResponseError：服务器错误 water.exceptions.H2ONotFoundArgumentException

CSV 文件绝对存在；在同一个 Databricks 笔记本中，我可以将其直接读入 DataFrame 并使用完全相同的完全限定路径查看内容：

我也试过打电话：

但无济于事；我得到 H2OValueError: File /FileStore/tables/iris.csv 不存在。我也尝试过直接从我的本地计算机（C 驱动器）上传文件，但这也没有成功。

我试过不使用完全限定的路径，只指定文件名，但我得到了同样的错误。我已经阅读了 H2O 文档并搜索了网络，但找不到以前遇到过此问题的任何人。

有人可以帮帮我吗？

谢谢。

python-3.x databricks importerror h2o aws-databricks

2020-12-20T21:13:57.507

0 投票

2 回答

227 浏览

databricks - 将 DataBricks API 2.0 与令牌一起使用

我正在尝试使用 Bearer Tokens 访问 DataBricks API 2.0，我收到了 200 个响应，但没有显示结果。

我正在运行这个命令，

databricks azure-databricks databricks-connect aws-databricks

2021-01-07T09:37:11.767

0 投票

1 回答

344 浏览

databricks - Databricks Magic Sql - 导出数据

是否可以在 Databricks 中导出“魔术 SQL”命令单元的输出？

我喜欢这样一个事实，即不必转义 SQL 命令并且可以轻松格式化。但是，我似乎无法在其他单元格中使用输出。我想做的是将数据导出到 CSV 文件，但可能会在我写出之前完成对数据框的一些最终操作。

vs (DBricks 格式化以下代码)

但是想象一下，一旦你引入了转义字符串、嵌套连接等。想知道是否有更好的方法在数据块中使用 SQL。

databricks azure-databricks aws-databricks

2021-02-03T00:41:04.410

0 投票

1 回答

135 浏览

r - 在 databricks 集群上安装 R 空间包所需的 c 库

R 中的空间包通常依赖于 C 库进行数值计算。如果 R 引擎无法使用默认权限安装这些库，则在安装依赖这些库的 R 包时会出现问题。看来，databricks 集群给 R 带来了这样的障碍。我想有两种方法可以解决这个问题，1）使用相关脚本创建一个 docker 容器来安装软件包或 2）通过 init 脚本安装它们。我认为后一种方法会更容易，但我遇到了一些问题。集群无法启动，因为我的 init 脚本无法执行。见下文-我也尝试过sudo

相关地，这些应该只安装在驱动节点上吗？我看不出他们需要在工作节点上的原因。上面的代码将它安装在我认为的工人和司机身上。要安装在驱动程序上，我想它会是：

r databricks gdal geos aws-databricks

2021-02-11T00:33:31.003

0 投票

1 回答

214 浏览

amazon-web-services - Databricks AWS 账户设置 - 出现错误的 AWS 存储 - 缺少权限：PUT、LIST、DELETE

我已经使用 AWS 创建了一个 PREMIUM trail Databricks 账户。我已经设置AWS account了用户访问密钥。

并AWS storage按照以下 URL 中的说明进行配置（如下 URL 中的设置存储桶策略）。

https://docs.databricks.com/administration-guide/account-settings/aws-storage.html

但是，我收到如下错误。

提供的 S3 存储桶有效，但没有足够的权限启动 Databricks 部署。请根据教程仔细检查您的设置。缺少权限：PUT、LIST、DELETE

在我使用的上述存储桶策略中，有PUT, LIST,DELETE策略。仍然面临上述错误。

注意：作为跟踪和错误，更改Action如下允许所有操作。但是，仍然得到同样的错误。

amazon-web-services amazon-s3 databricks aws-databricks

2021-02-17T11:19:55.097

0 投票

1 回答

30 浏览

databricks - ADLS - 从 Databricks for SQL 模式访问 ADLS

在 Databricks 中，我们能够在 Python 模式下基于以下身份验证代码访问 ADLS 文件。但是当我尝试对 SQL 模式进行身份验证时，出现以下错误。请帮助我们获取有关如何在 sql 中声明身份验证的信息。

Python ：

Sql：参考：

错误

databricks aws-databricks

2021-03-02T00:11:08.883

0 投票

1 回答

45 浏览

azure-storage - AWS Glue 目录能否指向 Azure ADLS 中的数据位置？

我们正在尝试将 AWS Databricks Runtime 配置为使用 AWS Glue 数据目录作为其元存储。在这种环境中，Azure ADLS 是源系统之一。在这种情况下，AWS Glue 目录可以指向 Azure ADLS 中的数据位置吗？

azure-storage azure-databricks aws-glue-data-catalog aws-databricks

2021-03-03T22:17:10.380

问题标签 [aws-databricks]

Reference