问题标签 [databricks-community-edition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark-sql - 无法通过从下拉选择转换的选定字段代码使用 SQL 访问全局视图表
我在 Databricks/Spark 社区版中使用 SQL 笔记本
上面的代码单元工作正常并从视图中检索所需的行。但是,以下代码单元格给出了错误。
我将 WHERE 子句中的硬编码值“2YD”替换为包含相同值的变量调用education_choice 。
看来我没有在 SQL 中正确使用变量。我将如何进行这项工作?
(这是错误)
我尝试了建议的注入方法,但这次得到了一个稍微不同的错误。我包括了相关代码单元的屏幕截图。似乎education_choice“2YD”没有被识别为文字,而是一个字段或类似的东西。
2YD 不应该像“2YD”那样在其周围加上引号吗?
如果我像这样硬编码 WHERE 子句: WHERE Education = "2YD" 查询工作正常。
下面的图片很小,但如果你右键单击它并“在新的水龙头中打开”,它的可读性很强。
databricks - 如何使用 Databricks 社区版将从 Kaggle 下载的数据导入 DBFS?
我设法使用 Kaggle API 从 Kaggle 下载数据集。数据存放在/databricks/driver目录下。
问题是:如何在 DBFS 中使用它们?以下是我如何读取数据以及尝试使用 pyspark 读取 csv 文件时遇到的错误:
docker - 如何构建一个自定义 docker 镜像,以实现 Apache Databricks 与 Denodo 的连接?
现在我们在 Databricks 中手动提供所有配置以连接到 denodo 数据库。现在的问题是我们需要一个可以启用连接的 docker 映像,这样新用户就不必手动执行此操作。
databricks - 机器学习角色是否可用于 Databricks 社区版?
我刚开始使用Databricks 社区版,默认情况下我处于“数据科学与工程”角色。我想探索机器学习环境,但在侧边栏中找不到这样的选项(见下文)。目前社区版是否支持该功能?
编辑:它于 2021 年 9 月 10 日可用。
databricks - 在我的笔记本中找不到“/dbfs/databricks-datasets”
我正在使用 Databricks 社区版并完成ML 介绍教程。
我可以%fs ls databricks-datasets/COVID/covid-19-data/us-states.csv
,但无法通过 pandas 阅读
直接databricks数据集中open
的README.md
文件也失败了
有什么想法或建议吗?
databricks - 如何在数据块中创建个人访问令牌?
我是 Databricks 的新手。我在 databricks 中有一个社区版帐户。Access token
但是,当我单击 时,我无法找到该选项卡User Settings
。我在这里错过了什么吗?请帮忙
pyspark - Pyspark 流处理每个触发器 1 条记录
我正在尝试 Databricks Developer Foundation Capstone,但我似乎无法通过流式练习。
我应该读取 json 数据流,对其进行转换并将其附加回表中。
我像这样创建了 DataFrame:
df = (spark.readStream.schema(DDLSchema).option("maxFilesPerTrigger", 1).json(stream_path))
然后我用orders_df = df.select(...)
转换和一切工作正常,但最后的检查一直失败,它说:
预计前 20 个触发器每个触发器处理 1 条记录 | 失败的
我用谷歌搜索了这个问题,但我无法在任何地方找到答案。
mongodb - 如何使用pyspark从databricks集群连接到mongodb Atlas
如何使用pyspark从databricks集群连接到mongodb Atlas
这是我在笔记本中的简单代码
但我收到错误
IllegalArgumentException:缺少数据库名称。通过 'spark.mongodb.input.uri' 或 'spark.mongodb.input.database' 属性设置
我在做什么错