问题标签 [databricks-community-edition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
78 浏览

apache-spark-sql - 无法通过从下拉选择转换的选定字段代码使用 SQL 访问全局视图表

我在 Databricks/Spark 社区版中使用 SQL 笔记本

上面的代码单元工作正常并从视图中检索所需的行。但是,以下代码单元格给出了错误。

我将 WHERE 子句中的硬编码值“2YD”替换为包含相同值的变量调用education_choice 。

看来我没有在 SQL 中正确使用变量。我将如何进行这项工作?

(这是错误)

我尝试了建议的注入方法,但这次得到了一个稍微不同的错误。我包括了相关代码单元的屏幕截图。似乎education_choice“2YD”没有被识别为文字,而是一个字段或类似的东西。

2YD 不应该像“2YD”那样在其周围加上引号吗?

如果我像这样硬编码 WHERE 子句: WHERE Education = "2YD" 查询工作正常。

下面的图片很小,但如果你右键单击它并“在新的水龙头中打开”,它的可读性很强。

在此处输入图像描述

0 投票
1 回答
416 浏览

databricks - 如何使用 Databricks 社区版将从 Kaggle 下载的数据导入 DBFS?

我设法使用 Kaggle API 从 Kaggle 下载数据集。数据存放在/databricks/driver目录下。

问题是:如何在 DBFS 中使用它们?以下是我如何读取数据以及尝试使用 pyspark 读取 csv 文件时遇到的错误:

0 投票
2 回答
208 浏览

databricks - 在 pyspark databricks 中并行执行多个笔记本

问题很简单:

master_dim.py调用dim_1.pydim_2.py并行执行。这在databricks pyspark中可能吗?

下图解释了我想要做什么,它由于某种原因出错,我在这里遗漏了什么吗?

在此处输入图像描述

0 投票
1 回答
141 浏览

databricks - 无法使用 DataBricks 熔断器安装路径从 DBFS 访问文件

我在数据块中有文件,如下所示 在此处输入图像描述

我正在尝试从数据砖笔记本中像这样访问它们 在此处输入图像描述

但我收到错误,即使尝试使用也会pandas出错 在此处输入图像描述

我不明白我哪里错了。尽管dbutils.fs.head('/FileStore/tables/flights_small.csv')给了我正确的结果。

0 投票
1 回答
48 浏览

docker - 如何构建一个自定义 docker 镜像,以实现 Apache Databricks 与 Denodo 的连接?

现在我们在 Databricks 中手动提供所有配置以连接到 denodo 数据库。现在的问题是我们需要一个可以启用连接的 docker 映像,这样新用户就不必手动执行此操作。

0 投票
1 回答
25 浏览

databricks - 机器学习角色是否可用于 Databricks 社区版?

我刚开始使用Databricks 社区版,默认情况下我处于“数据科学与工程”角色。我想探索机器学习环境,但在侧边栏中找不到这样的选项(见下文)。目前社区版是否支持该功能?

在此处输入图像描述

编辑:它于 2021 年 9 月 10 日可用。

在此处输入图像描述

0 投票
0 回答
19 浏览

databricks - 在我的笔记本中找不到“/dbfs/databricks-datasets”

我正在使用 Databricks 社区版并完成ML 介绍教程。

我可以%fs ls databricks-datasets/COVID/covid-19-data/us-states.csv,但无法通过 pandas 阅读

直接databricks数据集中openREADME.md文件也失败了

有什么想法或建议吗?

在此处输入图像描述

0 投票
1 回答
49 浏览

databricks - 如何在数据块中创建个人访问令牌?

我是 Databricks 的新手。我在 databricks 中有一个社区版帐户。Access token但是,当我单击 时,我无法找到该选项卡User Settings。我在这里错过了什么吗?请帮忙在此处输入图像描述

0 投票
1 回答
376 浏览

pyspark - Pyspark 流处理每个触发器 1 条记录

我正在尝试 Databricks Developer Foundation Capstone,但我似乎无法通过流式练习。

我应该读取 json 数据流,对其进行转换并将其附加回表中。

我像这样创建了 DataFrame:

df = (spark.readStream.schema(DDLSchema).option("maxFilesPerTrigger", 1).json(stream_path))

然后我用orders_df = df.select(...)

转换和一切工​​作正常,但最后的检查一直失败,它说:

预计前 20 个触发器每个触发器处理 1 条记录 | 失败的

我用谷歌搜索了这个问题,但我无法在任何地方找到答案。

0 投票
0 回答
100 浏览

mongodb - 如何使用pyspark从databricks集群连接到mongodb Atlas

如何使用pyspark从databricks集群连接到mongodb Atlas

这是我在笔记本中的简单代码

但我收到错误

IllegalArgumentException:缺少数据库名称。通过 'spark.mongodb.input.uri' 或 'spark.mongodb.input.database' 属性设置

我在做什么错