问题标签 [aws-databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何使用 Databrick 访问 AWS 公共数据集?
我是数据砖的新手。我正在为我的学校项目寻找公共大数据数据集,然后我在此链接上遇到了 AWS 公共数据集:https ://registry.opendata.aws/target/
我在 Databricks 上使用 python,但我不知道如何建立与数据的连接。我发现了以下如何指导:
我不确定如何找到各自的 access_key、secret_key、AWS_bucket_name 和 mount_name。
scala - 在 Apache Spark Databricks 上的 Scala 笔记本中,您如何正确地将数组转换为十进制(30,0)类型?
我正在尝试将数组转换为 Decimal(30,0) 以便在动态选择中使用:
但是,当使用以下方法进行投射时:
Databricks 接受了这一点,但签名看起来已经错了: intArrSurrIds: Array[java.math.BigDecimal] = Array(2181890000000,...) // 即 BigDecimal
这导致以下错误:
SQL 语句中的错误:AnalysisException:无法解析.. 由于数据类型不匹配:函数 array_contains 的输入应该是数组,后跟具有相同元素类型的值,但它是 [array<decimal(38,18)>,decimal(30 ,0)]
如何在 Spark Databricks Scala 笔记本中正确转换为 decimal(30,0) 而不是 decimal(38,18) ?
任何帮助表示赞赏!
scala - 在 Databricks 中调用一次 Trigger 来处理 Kinesis Stream
我正在寻找一种方法来触发我的 Databricks 笔记本一次以处理 Kinesis Stream 并使用以下模式
使用 AWS Kinesis 似乎不可能,这也是 Databricks 文档所建议的。我的问题是我们还能做些什么来实现这一目标?
python-3.x - 无法从 Databricks 集群 DBFS 将 CSV 文件导入 h2o
我已经在我的 AWS Databricks 集群上成功安装了两个 h2o,然后成功启动了 h2o 服务器:
当我尝试导入存储在我的 Databricks DBFS 中的 iris CSV 文件时:
我收到 H2OResponseError:服务器错误 water.exceptions.H2ONotFoundArgumentException
CSV 文件绝对存在;在同一个 Databricks 笔记本中,我可以将其直接读入 DataFrame 并使用完全相同的完全限定路径查看内容:
我也试过打电话:
但无济于事;我得到 H2OValueError: File /FileStore/tables/iris.csv 不存在。我也尝试过直接从我的本地计算机(C 驱动器)上传文件,但这也没有成功。
我试过不使用完全限定的路径,只指定文件名,但我得到了同样的错误。我已经阅读了 H2O 文档并搜索了网络,但找不到以前遇到过此问题的任何人。
有人可以帮帮我吗?
谢谢。
databricks - Databricks Magic Sql - 导出数据
是否可以在 Databricks 中导出“魔术 SQL”命令单元的输出?
我喜欢这样一个事实,即不必转义 SQL 命令并且可以轻松格式化。但是,我似乎无法在其他单元格中使用输出。我想做的是将数据导出到 CSV 文件,但可能会在我写出之前完成对数据框的一些最终操作。
vs (DBricks 格式化以下代码)
但是想象一下,一旦你引入了转义字符串、嵌套连接等。想知道是否有更好的方法在数据块中使用 SQL。
r - 在 databricks 集群上安装 R 空间包所需的 c 库
R 中的空间包通常依赖于 C 库进行数值计算。如果 R 引擎无法使用默认权限安装这些库,则在安装依赖这些库的 R 包时会出现问题。看来,databricks 集群给 R 带来了这样的障碍。我想有两种方法可以解决这个问题,1)使用相关脚本创建一个 docker 容器来安装软件包或 2)通过 init 脚本安装它们。我认为后一种方法会更容易,但我遇到了一些问题。集群无法启动,因为我的 init 脚本无法执行。见下文-我也尝试过sudo
相关地,这些应该只安装在驱动节点上吗?我看不出他们需要在工作节点上的原因。上面的代码将它安装在我认为的工人和司机身上。要安装在驱动程序上,我想它会是:
amazon-web-services - Databricks AWS 账户设置 - 出现错误的 AWS 存储 - 缺少权限:PUT、LIST、DELETE
我已经使用 AWS 创建了一个 PREMIUM trail Databricks 账户。我已经设置AWS account
了用户访问密钥。
并AWS storage
按照以下 URL 中的说明进行配置(如下 URL 中的设置存储桶策略)。
https://docs.databricks.com/administration-guide/account-settings/aws-storage.html
但是,我收到如下错误。
提供的 S3 存储桶有效,但没有足够的权限启动 Databricks 部署。请根据教程仔细检查您的设置。缺少权限:PUT、LIST、DELETE
在我使用的上述存储桶策略中,有PUT
, LIST
,DELETE
策略。仍然面临上述错误。
注意:作为跟踪和错误,更改Action
如下允许所有操作。但是,仍然得到同样的错误。
azure-storage - AWS Glue 目录能否指向 Azure ADLS 中的数据位置?
我们正在尝试将 AWS Databricks Runtime 配置为使用 AWS Glue 数据目录作为其元存储。在这种环境中,Azure ADLS 是源系统之一。在这种情况下,AWS Glue 目录可以指向 Azure ADLS 中的数据位置吗?