问题标签 [aws-databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 如何在databricks notebook sql中格式化日期
我需要将 mm/dd/yyyy 格式的日期值转换为 databricks sql 中的 yyyy-mm-dd。我尝试了 to_date('eff_date', 'mm/dd/yyyy') 然后我得到了正确的输出格式,但所有行月份值都默认为 01。例如:12/01/2016 正在转换为 2016-01 -01。我尝试了 date_format (to_date('date_column', 'mm/dd/yyyy'), 'yyyy-mm-dd'),在这种情况下,所有月份值都默认为 00,如 2016-00-01。有人可以建议解决方案吗?
gpu - 如何在 AWS 数据块上使用 GPUTree(形状解释器)?
AWS databricks GPU 实例似乎只提供 CPU 版本的 shap 库。按照 文档,我可以用 GPU 版本替换它(完成没有错误)。不幸的是,当在单个虚拟样本上使用它时,它会抛出无用的
ConnectException:连接被拒绝(连接被拒绝)获取新通信通道时出错
这应该是一个 OOM 错误 - 除了应该有足够的空间和神经节显示。我想我在这里陷入了死胡同。有什么方法可以获得更有用的错误信息?尝试其他婴儿步骤?还是可以完成相同事情的不同方法(在 databricks-AWS 中运行 GPUTree)?
sql - 使用 date_format 在数据块中进行时间戳转换
我想在databricks中转换以下时间戳,请帮助获得所需的格式
错误:
amazon-web-services - Databricks 实例配置文件创建失败 - “AWS 错误:您无权执行此操作”
我正在尝试创建一个 databricks 实例配置文件以与先前配置的工作区一起使用,并在运行时收到以下错误terraform apply
:
这是我解码编码授权失败消息时看到的内容:
我正在尝试遵循databricks 文档。
这是相关的 terraform 代码片段:
任何输入将不胜感激。
terraform - Databricks Terraform Provider - 基于名称的匹配?
我一直在尝试将我团队的一些工作流程从利用Databricks Labs DBX进行作业部署转换为利用 Terraform 提供程序。我注意到的一个区别是两者之间的提供者行为不匹配。DBX 将尝试根据其名称匹配作业,而 Terraform 将仅根据其 ID 匹配它们。这意味着要迁移我的作业,我必须根据 ID 手动刷新每个作业定义。
DBX 是一个无状态部署工具,它专门使用作业名称来匹配部署和配置更新,并且对其他一些属性具有相当强大的基于名称的支持,这对我们的部署环境可能很有用。可以在此处找到该列表:https ://dbx.readthedocs.io/en/latest/named_properties.html
在我们的环境中,我希望使用纯 terraform 而不是 terraform 和 DBX 来促进这个 repo 结构:
- base_repo
- scripts/tf(通过 Terraform 配置工作区)
- src/*/scala/*(代码文件)
- project_repo
- scripts/tf(仅限作业部署,替换 scripts/dbx)
- src/*/scala/* (单个作业的代码)
然而,缺乏基于名称的匹配似乎迫使我要么使用 databricks cli 获取作业、配置文件等的列表,并通过包装脚本将它们作为变量传递给project_repo terraform 脚本,要么继续使用 dbx对于那些项目。
有没有一种好方法可以单独使用 terraform 提供程序来促进我正在寻找的东西?
apache-spark - 从单个 kinesis 流数据帧读取的结构化流多个流导致过多的 kinesis GET 请求(无水印)
这是我的场景:
我有一个将 json 数据发布到它的 kinesis 流数据帧。
我正在尝试按 3 个流过滤此 json 数据类型,并通过这 3 个流将每种类型写入 3 个位置。
有第 4 个流,它使用第一种类型的 DF 并将 2 个静态 dfs jdbc 表连接到它,将其写入最终的 jdbc 表。
我的问题,对于 spark 3.1.x
- 基于此,所有前 3 个流分别从 kinesis 重新轮询/读取。3.1.x 仍然如此吗?或者他们是否只通过单个流数据帧 KStr_DF 从 kinesis 读取一次?
- 第 4 个流使用流 1 使用的相同数据帧,然后将其与其他静态数据帧连接,分别执行第 1/4 次读取/轮询运动,或者仅执行一次并通过 Str_DF_A 使用相同的偏移量?
- 连接上缺少水印会导致过度的运动轮询吗?或者,如果我要在没有水印的情况下对列上的输入流运动进行重复数据删除?
- 将 trigger(processingTime='10 seconds') 与 foreach(stream 4) 一起使用有什么意义吗?
databricks - 外部 API 的服务令牌 | 数据块
我目前正在试验 Databricks。我想利用Python SQL 连接器允许外部 API 通过 Databricks 访问某些表。
使用 Python SQL 连接器需要使用个人访问令牌来向 Databricks 进行身份验证。
这里的问题是我不希望服务的访问令牌与我的个人身份相关联,理想情况下,我希望将访问令牌附加到服务身份。Databricks 只允许我创建具有名字、姓氏和电子邮件的用户。是否可以创建服务标识以从外部访问表?
谢谢。
amazon-web-services - 如何解决 Databricks 中的 AWSSecurityTokenServiceException 错误?
我一直在尝试将一些数据从 AWS S3 存储桶读取到 Databricks。S3 存储桶是development/team/user。我正在使用 Scala 语句:
我得到以下信息:
com.amazonaws.services.securitytoken.model.AWSSecurityTokenServiceException: 用户 [user] 无权执行 sts:AssumeRole on resource: [resource]
如何解决此错误?我正在运行的 Databricks 集群有问题吗?有没有办法让我的 Databricks 角色在 AWS 中执行 sts:AssumeRole?我不确定是否或如何做。
python-3.x - 如何使用自定义 AWS lambda python 函数对 Databricks 中的 REST 端点进行 HTTP POST 调用?
我需要通过 Lambda 函数运行 Databricks 笔记本。
apache-spark - 为什么 dataframe.write.mode("overwrite").saveAsTable("table") 命令会删除数据?
我做错了什么?(这些是数据块中的不同单元格)
我想覆盖数据。Dataframe 有更多行,但在写入表时删除了一些行。