问题标签 [databricks-community-edition]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

42 问题

0 投票

1 回答

39 浏览

databricks - 输入 DBFS 上文件的正确路径

我将文件上传到 DBFS：

/FileStore/shared_uploads/name_surname@xxx.xxx/file_name.csv

我试图通过 pandas 访问它们，但我总是收到此类文件不存在的信息。我尝试使用以下路径：

有趣的是，当我通过 dbutils.fs.ls 检查它们时，我看到了所有文件。

我找到了这个解决方案，我已经尝试过了：Databricks dbfs file read issue

将它们移动到一个新文件夹：

我试图从这个文件夹中访问它们，但它仍然对我不起作用。唯一的区别是我将文件复制到了不同的地方。

我还检查了文档：https ://docs.databricks.com/data/databricks-file-system.html

我使用 Databricks 社区版。

我不明白我做错了什么以及为什么会这样。我没有其他想法。

databricks databricks-community-edition

2021-10-16T10:59:13.713

0 投票

0 回答

84 浏览

csv - 运行时持续时间超时 - databricks

Databricks 环境 - 我正在尝试在我的笔记本中添加一个表（CSV 文件），该表已成功连接到集群。

但是在上传当天的中途显示一条错误消息，上面写着“无法上传，运行时间超时”

我该如何解决？CSV 文件大小为 25MB。

csv runtime-error databricks databricks-community-edition

2021-11-11T07:43:56.477

0 投票

0 回答

29 浏览

scala - 如何使用 Scala 在 CSV 中找出字符串并将其替换为嵌套数组

我有一个要求，需要加载 CSV 并使用带有 scala 的 Databricks 用嵌套数组查找和替换字符串。你能帮我解决这个问题吗？

问候，拉姆

scala apache-spark-sql databricks databricks-community-edition

2021-11-16T19:23:29.887

0 投票

0 回答

25 浏览

databricks - Databricks 社区版集群超时

有人可以让我知道他们是否在使用 Databricks 社区版连接到集群时遇到任何问题？

我不断收到以下错误，表明存在超时问题。

databricks databricks-community-edition

2021-12-01T21:51:03.397

0 投票

2 回答

202 浏览

spark-streaming - Databricks 无法保存流检查点

我正在尝试设置流以开始处理传入文件。看起来 Databricks 无法保存检查点。我尝试了 ADLS Gen2 和 DBFS 中的位置，结果相同。Databricks 使用某些结构创建所需的文件夹，但无法写入。检查点位置有什么特殊要求吗？

检查点文件夹

Databricks 社区版，运行时版本：9.1 LTS（包括 Apache Spark 3.1.2、Scala 2.12）

错误：

spark-streaming databricks azure-databricks databricks-community-edition databricks-autoloader

2021-12-13T10:44:06.647

0 投票

1 回答

93 浏览

apache-spark - 如何在 Databricks（社区版）上本地保存 Great_Expectations 套件

我可以将 Great_Expectations 套件保存到我的 Databricks 社区版上的 tmp 文件夹中，如下所示：

但问题是，当我重新启动集群时，tmp 文件夹中的 json 文件更长。我猜这是因为驻留在 tmp 文件夹中的文件是临时的。但是，如果我尝试将其保存为我知道 Databricks 上存在的文件夹，例如 /FileStore/tables，我会收到错误消息：

有人可以让我知道如何在 Databricks 上本地保存。

apache-spark databricks great-expectations databricks-community-edition

2021-12-17T15:49:42.433

0 投票

1 回答

29 浏览

python - 社区数据块的课程指示

我需要学习如何使用数据块，使用 Python 编程语言。有没有人有任何介绍性课程提示，教如何使用 Databricks 社区（免费），我可以在其中使用 Python 语言？

任何提示将不胜感激！

python python-3.x databricks databricks-community-edition

2021-12-21T14:19:15.777

0 投票

1 回答

105 浏览

databricks - Databricks、SPARK UI、sql 日志：使用 REST API 检索

是否可以使用 rest-API 检索 Databricks/Spark UI/SQL 日志，是否有任何保留限制？，看不到任何相关的 API rest-api azure Databricks

注意：集群 /advanced options/logging 尚未设置。

databricks azure-databricks databricks-community-edition

2022-01-06T12:51:33.720

0 投票

2 回答

125 浏览

scala - Databricks 上的 Apache Spark 数据生成器功能不起作用

我正在尝试执行为我的 Microsoft 提供的数据生成器功能来测试到事件中心的流数据。

不幸的是，我不断收到错误

当我尝试执行该功能时：

有人可以查看代码并帮助解读我收到错误的原因：

我不确定如何将上述单元格调用到函数 DummyDataGenerator

scala apache-spark pyspark databricks-community-edition

2022-01-07T19:37:51.310

0 投票

1 回答

29 浏览

pyspark - 无法从文本文件（Spark）对 RDD 应用 count() 或 collecr()

我是 Spark 的新手，我有 Databricks 社区版帐户。现在我正在做实验室并遇到以下错误：

输出：

pyspark databricks-community-edition

2022-02-11T10:05:44.697

1 2 3 4 5 6 7 8 9 10