问题标签 [databricks-community-edition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1301 浏览

apache-spark - 如何从 PyCharm 连接 Databricks 社区版集群

我想从事一些小型练习项目,我希望使用databricks集群。这可以做到吗。我希望有某种方法可以通过 databricks-connect 实用程序连接 databricks 集群。只需要一些步骤。提前致谢。

0 投票
1 回答
647 浏览

databricks - Databricks Community Edition 冲突的 Scala 库或附加到集群的 JAR

每次我尝试在 Databricks 社区版上执行任何 Scala 代码时,都会收到以下错误消息:

java.lang.Exception: An error occurred while initializing the REPL. Please check whether there are conflicting Scala libraries or JARs attached to the cluster, such as Scala 2.11 libraries attached to Scala 2.10 cluster (or vice-versa).

有人可以让我知道如何解决这个问题吗?

0 投票
1 回答
101 浏览

databricks - 可以使用 Databricks 社区版生成数据访问令牌吗?

我正在尝试使用 Databricks 社区版创建访问令牌,但该选项似乎不可用。可以在社区版中创建访问令牌还是不可用?

这是指南显示的内容: 在此处输入图像描述

这就是我所看到的: 在此处输入图像描述

0 投票
1 回答
421 浏览

streaming - 我的 Databricks 社区集群上有太多文件,但是在哪里?

我开始在我的 Community Edition Databricks 上玩流媒体,但在制作测试事件几分钟后,我遇到了一些问题。我相信这与流式传输过程中产生的一些临时小文件的事实有某种联系。我想找到它们并删除,但找不到它们的存储位置。我的例外是

而且我尝试运行一些 shell 脚本来找出每个文件夹的文件数,但不幸的是,我找不到可疑的,大多数情况lib下,usr还有其他包含系统或 python 文件的文件夹,找不到任何可以由我的流媒体生成的东西。我使用的这个脚本

我在哪里可以找到问题的原因too many files?也许它根本没有连接到流媒体?

为了清楚起见,我没有上传很多自定义文件到/FileStore

0 投票
1 回答
3637 浏览

apache-spark - 无法在 databricks 社区版集群中创建 dbfs 文件。FileNotFoundError: [Errno 2] 没有这样的文件或目录:

尝试读取databricks 社区版集群中的增量日志文件。(databricks-7.2 版本)


Getting file not found error:

我已经尝试添加/dbfs/dbfs:/没有解决,仍然得到同样的错误。

但是使用dbutils.fs.head我能够读取文件。

我们如何使用 读取/dbfs file分类数据块中的 a python open method

0 投票
3 回答
777 浏览

databricks - 无法在 databricks 运行时版本 7 中使用 shell 命令访问 /dbfs/FileStore

在 databricks 运行时版本 6.6 中,我能够成功运行如下 shell 命令:

但是,在运行时版本 7 中,这不再有效。有什么方法可以在运行时版本 7 中直接访问 /dbfs/FileStore?我需要运行命令来解压缩 /dbfs/FileStore/tables 中的 parquet zip 文件。这曾经在 6.6 版中工作,但 databricks 新的“升级”打破了这个简单的核心功能。

不确定这是否重要,但我正在使用数据块的社区版。

0 投票
1 回答
30 浏览

apache-spark - 在 Databricks 中创建 SQL 用户

有没有办法在 Databricks 中创建数据库 (sql) 用户(类似于 Oracle 或 MySql 用户)?在社区版中似乎不可能。

在此处输入图像描述

由于一长串原因......我需要创建大量表,并希望能够按项目组织它们。如果我无法创建 sql 用户,是否有另一种方法可以为不同项目创建本质上相当于不同名称空间的内容?

我想最终得到类似的东西:

project_01 schema_01 table_x table_y table_z schema_02 table_a table_b table_x scheam_03 table_foo table_a table_b project_02 schema_01 table_d table_e table_f schema_02 table_p table_q table_r scheam_03 table_foo table_bar table_bat

所以我可以做这样的事情:

(每个表都是不同的表,即 project_01.table_x 是与 project_02.table_x 不同的表)。

0 投票
1 回答
265 浏览

apache-spark - Databricks Notebooks - 如何知道哪个内核

我正在使用 Databricks 社区版来运行 spark 工作负载。我知道它使用内核来运行笔记本

  1. 无论如何确定笔记本使用哪个内核运行?
  2. 笔记本将如何在幕后运行(可用信息很少)?
0 投票
2 回答
929 浏览

python - 从databricks中的python代码访问文件

我正在尝试通过在https://community.cloud.databricks.com/的笔记本中使用以下代码来访问我之前通过 CLI 复制的模型文件

为此我得到

正如我所说的那样,我已经使用 CLI 复制了文件:

然后做

我看到了我复制的文件。

但是,如果我要在我的笔记本中执行此操作:

如果我使用的是 UI 或 CLI,我看到的是一个空目录,而不是我看到的文件夹和文件。

如果我要从笔记本中写入这个空目录,是的,这是可行的,我会在该目录中看到我刚刚编写的文件中的一个文件,问题是我想阅读我事先已经放在那里的内容。

看起来本地 api 无法看到众所周知的另一只手对我通过 CLI 或 UI 加载的所有数据集和模型所做的事情。那么为什么我看不到这些文件呢?它是否与凭据有关,如果是,我该如何解决?或者可能是完全不同的东西,比如安装?我正在自己做一个介绍性试验和一些基本的东西来学习数据块,所以我对底层概念不太熟悉。

0 投票
0 回答
103 浏览

databricks - Databricks 社区版上的包单元问题

跟着这个https://docs.databricks.com/notebooks/package-cells.html

在社区版 - 最新版本 Spark 3.x

A.1。根据示例创建带有对象的包。

A2。在不同单元格中的同一笔记本中运行,无需重新启动集群。没有问题,运行良好

B.1。在没有重新启动集群的情况下在不同的笔记本中运行它。错误

C.1。重新启动集群。运行导入。错误

问题

这是社区版的问题吗?不这么认为,但不能放置它。观察结果与官方文档相矛盾。