问题标签 [aws-databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
491 浏览

amazon-web-services - 使用 Databricks Mount 时的 AWS 关键问题

目前,我在处理在 AWS S3 存储桶上创建的 Databricks 挂载点时遇到了问题。我可以使用以下代码在 Databricks 笔记本中创建挂载点 -



虽然,随着这个挂载点的创建,当尝试使用下面的 dbutils 列出时 -

出现以下错误:

com.databricks.backend.daemon.data.common.InvalidMountException:后端无法获取路径 /mnt/testmntpnt01 的会话令牌。您是否删除了挂载点的 AWS 密钥?

在 AWS 中使用 Databricks 的新手无法弄清楚实际原因。提供的密钥和秘密也是正确的。

我在这里缺少什么吗?

提前致谢。

0 投票
1 回答
421 浏览

streaming - 我的 Databricks 社区集群上有太多文件,但是在哪里?

我开始在我的 Community Edition Databricks 上玩流媒体,但在制作测试事件几分钟后,我遇到了一些问题。我相信这与流式传输过程中产生的一些临时小文件的事实有某种联系。我想找到它们并删除,但找不到它们的存储位置。我的例外是

而且我尝试运行一些 shell 脚本来找出每个文件夹的文件数,但不幸的是,我找不到可疑的,大多数情况lib下,usr还有其他包含系统或 python 文件的文件夹,找不到任何可以由我的流媒体生成的东西。我使用的这个脚本

我在哪里可以找到问题的原因too many files?也许它根本没有连接到流媒体?

为了清楚起见,我没有上传很多自定义文件到/FileStore

0 投票
2 回答
1262 浏览

python - 在数据块上将严重分区的数据帧加速到 s3

我在 Databricks 上运行一个笔记本,它创建分区的 PySpark 数据帧并将它们上传到 s3。有问题的表有 ~5,000 个文件,总大小约为 5 GB(需要以这种方式分区才能被 Athena 有效查询)。我的问题是,将文件写入 s3 似乎是顺序的而不是并行的,可能需要长达一小时。例如:

我使用以下配置在 AWS 上启动了我的集群(i3.xlarge):

在这种情况下,我有许多需要快速写入 s3 的小文件,推荐的方法是什么?

0 投票
3 回答
777 浏览

databricks - 无法在 databricks 运行时版本 7 中使用 shell 命令访问 /dbfs/FileStore

在 databricks 运行时版本 6.6 中,我能够成功运行如下 shell 命令:

但是,在运行时版本 7 中,这不再有效。有什么方法可以在运行时版本 7 中直接访问 /dbfs/FileStore?我需要运行命令来解压缩 /dbfs/FileStore/tables 中的 parquet zip 文件。这曾经在 6.6 版中工作,但 databricks 新的“升级”打破了这个简单的核心功能。

不确定这是否重要,但我正在使用数据块的社区版。

0 投票
1 回答
620 浏览

databricks - Databricks:dbfs:/与文件:/之间的区别

我试图了解 Databricks 存储文件的方式,但我有点不确定dbfs:/file:/之间的区别是什么(见下图)

在此处输入图像描述

从我已经能够从这里推断出来,file:/ 似乎是通过 curl/wget 下载的外部文件被下载到以下文件夹路径中的区域:

但是file:/到底是什么,它为什么存在以及它与dbfs:/有什么不同?

作为记录,我正在使用 Databricks 的社区免费版。

0 投票
1 回答
152 浏览

scala - 获取正在运行的 Databricks 作业的类名

有一个Apache Spark Scala项目 ( runnerProject ),它使用同一个包 ( sourceProject ) 中的另一个项目。源项目的目的是获取正在运行的 Databricks 作业的名称和版本。

以下方法的问题在于,当runnerProject调用它时,它返回sourceProject 的详细信息,而不是runnerProject的名称和版本

sourceProject的方法:

runnerProject 使用 sourceProject 作为一个包:

如何以getJobDetails()sourceProject中运行的方式解决此问题,以便也可以从其他项目调用它,而不仅仅是runnerProject。而且,它应该返回有关“调用者”工作的详细信息

先感谢您!:)

0 投票
1 回答
3087 浏览

databricks - 用于开发的 Databricks 本地实例

我目前正在开发一个基于 Databricks 的解决方案的小团队。目前,我们已经足够小,可以处理 Databricks 的云实例。随着团队的发展,这将不再实用。

是否有可以为开发目的安装的 Databricks 的“本地”安装(它不需要是可扩展的版本,但需要基本上功能齐全)?换句话说,每个开发人员都可以在本地机器上创建自己的 Databricks 开发实例吗?

是否有另一种方法可以为每个开发人员提供专用的 Databricks 环境?

0 投票
1 回答
133 浏览

aws-kms - 如何从数据块中的 AWS Key Management Service 访问键值

我正在 AWS 数据块中创建一个解决方案,并希望从 AWS KMS 访问 RDS 的用户 ID 和密码。

任何人都创建了这个场景,请帮助。

0 投票
1 回答
183 浏览

apache-spark - 如何在 AWS 数据块上设置 spark.task.maxFailures?

我想将 spark.task.maxFailures 设置为大于 4 的值。使用 Databricks 6.4 运行时,如何设置此值?

当我执行 spark.conf.get("spark.task.maxFailures") 时,出现以下错误

以前有人在数据块上设置过这个吗?

我知道我可以使用

但是不确定是否必须在集群启动时设置或之后设置?

0 投票
2 回答
123 浏览

metadata - AWS 胶水:在 aws 环境中部署模型

根据我们的 AWS 环境,我们有 2 种不同类型的 SAG(服务帐户组)用于数据存储。一个 SAG 用于通用存储,另一个 SAG 用于仅保存 PII 或受限数据的安全数据。在我们的环境中,我们计划部署 Glue 。在那种情况下,我们会在安全和非安全上都有一个元存储吗?如果我们需要两个元存储,这将如何与 Databricks 一起使用?如果是一个元存储,如何处理安全数据?请帮助我们了解更多详情。