问题标签 [aws-databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
73 浏览

amazon-web-services - 如何使用 Databricks 访问 AWS 公共数据集?

对于我的一门课,我必须分析“大数据”数据集。我在 AWS Registry of Open Data 上发现了以下看起来很有趣的数据集:

https://registry.opendata.aws/openaq/

如何准确地创建连接并将此数据集加载到 Databricks 中?我尝试了以下方法:

但是,我收到以下错误:

此外,这个数据集似乎有多个文件夹。如何访问 Databricks 中的特定文件夹,如果可能,我可以专注于特定时间范围吗?比方说,从 2016 年到 2020 年?

最终,我想执行各种 SQL 查询以分析数据集并可能创建一些可视化。先感谢您。

0 投票
1 回答
100 浏览

apache-spark - 从 codebuild 到 aws codeartifact 的诗歌发布失败并出现 UploadError

我有一个数据集需要定期导入到我的数据湖中,替换当前数据集在我生成数据框后,我目前正在执行:

但是,如果我再次运行该作业,我会收到以下错误:

虽然我知道我以前可以做dbutils.fs.rm,但我宁愿只是“替换”那里的数据有没有办法实现这一点?

0 投票
0 回答
91 浏览

scala - 无法使用 HTTP 客户端访问 REST API

我正在尝试使用 scala 和 HTTP 客户端库访问 RestAPI(Databricks),但无法获得正确的响应。

我正在尝试使用 Bearer token 访问,端点是 https://somename.cloud.databricks.com/api/2.0/jobs/runs/list?active_only=true&limit=15。从 EC2 机器和 AWS 上的 Databricks 集群访问此端点。当我从本地机器(通过 IDE)执行时,相同的代码会给出正确的响应。

下面是代码:

即使我也尝试过下面的代码,但都给出了相同的响应。

以下是 HTML 格式的响应,我得到的响应代码为 200。

有人可以帮助我吗?

0 投票
2 回答
1309 浏览

python - 如何通过 Python 访问共享的 Google Drive 文件?

我尝试通过 Python 访问共享的 Google Drive 文件。

我已经创建了 OAuth 2.0 ClientID 以及 OAuth 同意。

我已复制粘贴此代码:https ://github.com/googleworkspace/python-samples/blob/master/drive/quickstart/quickstart.py

授权成功,但是 Python 代码返回一个空白列表,表明 Google Drive 中没有文件,尽管有很多文件。

是否应该有区别,因为我正在尝试访问共享文件夹,如果是,是否会导致错误,以及如何解决?

如果不是,这是正确的方法吗?我还阅读了有关 API 密钥和服务帐户的信息,使用它们中的任何一个是否有意义?稍后我创建的这项服务将被 Databricks(在 AWS 上运行)上的其他用户使用,我不知道哪种解决方案是最好的。

谢谢您的帮助!

0 投票
1 回答
665 浏览

python-3.x - 如何在数据块中导入文本文件

我正在尝试用一些文本编写文本文件并在数据块中加载相同的文本文件,但我收到错误

代码

错误 FileNotFoundError:[Errno 2] 没有这样的文件或目录:'/dbfs/FileStore/tables/test_dbfs.txt'

0 投票
3 回答
131 浏览

databricks - Aws S3 到 Databricks 挂载不起作用

我已经使用安装命令安装了“mybucket”,并且可以使用以下命令列出所有对象-

但是,我在“mybucket”中的文件夹中有文件夹,我想运行以下命令,但它不起作用。

任何帮助深表感谢。谢谢

0 投票
1 回答
151 浏览

sql - 在 Databricks 和 MS SQL Server 中比较表中的数据

我必须将 databricks 中的表与 SQL Server 中的同一表进行比较,并且只将丢失的记录填充到 databricks 中。有人可以帮助我如何使用 databricks 连接到 SQL Server,如何以及在何处编写将填充缺失数据的查询。

谢谢!

0 投票
1 回答
171 浏览

databricks - 使用循环时无法在 Databricks 中显示图表(不在单元格末尾)

我正在使用 Databricks 笔记本。由于各种原因,我需要单独渲染图表(concat 没有给我想要的结果)并且我不能将图表对象放在单元格的末尾。我想渲染每个图表并进行一些处理。这是一些简单的代码,显示了我想要做什么。

不幸的是,输出是:

我已经尝试过 vega 版本 2.2.0、3.4.0 和 3.5.0,但我仍然遇到同样的问题。我正在使用 altair 版本 4.1.0、IPython 版本 7.19.0 和 Python 3.8.8。

我尝试了不同的渲染器('mimetype'、'notebook'),但我什么也没得到。

有谁知道如何让 display() 方法在 Databricks 中工作?

0 投票
1 回答
61 浏览

databricks - databricks 编辑器用户界面问题

当我单击数据块结果显示(复制它)时,页面刷新并向上翻页。然后它回到同一个单元格。此外,当我在显示单元(复制)上执行 ctrl+C 时,笔记本开始执行!

我究竟做错了什么?我是否更改了任何设置?

0 投票
1 回答
229 浏览

databricks - Databricks notebook 传入参数返回结果

嗨,我对 Databricks 非常陌生,需要一些指导。我试图将一些参数传递到 Databricks Notebook 中,我希望它进行一些简单的计算。例如,传入两个参数,x 和 y => 返回 x + y 作为响应。我试图调查它,但找不到任何具体的东西。