问题标签 [databricks-connect]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
585 浏览

apache-spark - Databricks Connect:DependencyCheckWarning:远程集群上可能不存在 java 类

我正在对 Databricks 上的远程 Spark 集群执行另一次本地 Scala 代码执行,并得到了这个。

我尝试重新导入、清理和重新编译 sbt 项目,但无济于事。

有谁知道如何处理这个问题?

0 投票
1 回答
1977 浏览

apache-spark - 从本地计算机连接到 Databricks 时出错

我正在尝试从我的 Mac(Mojave) 连接到 Databricks。

我做了一个pip install -U databricks-connect==5.5.*

我启动了一个 spark-shell,但是当我尝试在 spark 中查询时,出现以下错误

引起:com.databricks.service.SparkServiceConnectionException:无效的令牌

然后我运行 spark.conf.get("spark.databricks.service.token") 并取回我创建的令牌。我们尝试在 Windows 机器上使用此令牌并且它可以工作。

0 投票
5 回答
8166 浏览

azure - 无法启动 Azure Databricks 群集

我是 MS Azure 的新手。我正在尝试下载 Microsoft Academic Graph 进行各种分析,但他们不提供批量下载结构化数据集。openacademicgraph 等外部资源并不是很有用,所以我想我可以尝试通过 Azure 下载数据。

幸运的是,有专门的手册 - “在 Azure 存储上获取 Microsoft Academic Graph - docs.microsoft.com/en-us/academic-services/graph/get-started-setup-provisioning”。

我按照手册中的步骤为 MAG 创建了一个 Azure 帐户,收到了来自 Academic Knowledge API 的以下电子邮件 -


欢迎使用 Microsoft Academic Graph (MAG) Azure Storage (AS) 分发预览版。请注意,此发行版处于免费预览阶段。定价结构可能会发生变化。

您的 Azure 存储已成功设置为通过 Azure 数据工厂接收 MAG 更新。每个 MAG 数据集都被配置到一个名为“mag-yyyy-mm-dd”的单独容器中。2020-02-14 数据集已推送到您的 Azure 存储。

由于 MAG 附带 ODC-BY 许可证,因此您有权根据开放数据许可证的条款(例如,在您的产品、服务或社区活动中对 MAG 的归属)增加价值和重新分发衍生产品。

MAG 的每个快照都将作为不同的容器显示在您的 Azure 存储中。在 Microsoft Academic Graph 文档中,您可以找到使用 Azure Databricks 从 MAG 中为您的应用程序提取知识的示例。还有一个使用 U-SQL 的示例,它是 Azure Data Lake Analytic Framework 的成员。

我们还将用于我们的 WWW 会议分析博客文章的出色分析和可视化示例放在一起。我们希望这可以帮助您加快开发过程并激发想象力!


下一步是“为 Microsoft Academic Graph 设置 Azure Databricks - docs.microsoft.com/en-us/academic-services/graph/get-started-setup-databricks”,我遵循了这一步骤。我能够为 MAG 创建一个 Azure Databricks(我不知道它们是什么,因为我是新手),但现在我无法让它运行。

以下是我收到的错误消息:


信息

集群终止。原因:云提供商启动失败

启动工作程序节点时遇到云提供商错误。有关详细信息,请参阅 Databricks 指南。

Azure 错误代码:OperationNotAllowed

Azure 错误消息:操作无法完成,因为它导致超出批准的总区域核心配额。其他详细信息 - 部署模型:资源管理器,位置:centralus,当前限制:4,当前使用:4,需要额外:4,(最低)需要新限制:8。在https://aka提交配额增加请求。 ms/ProdportalCRP/?#create/Microsoft.Support/Parameters/~~~通过指定“详细信息”部分中列出的参数以使部署成功。请在https://docs.microsoft.com/en-us/azure/azure-supportability/regional-quota-requests阅读有关配额限制的更多信息。


我不确定我应该做什么。

超出“总区域核心配额”,不是我的个人订阅等。我如何要求增加整个区域的配额?他们说我需要申请更大的配额,而我按照手册创建的免费试用帐户无法做到这一点。这是否意味着手册有误,我必须成为现收现付?“当前使用情况:4”但我目前没有使用任何东西。我只有一个 Azure 存储和一个未运行的 Databrick 集群。我重新尝试启动集群,第二次成功启动,只是在几分钟后停用并显示相同的错误消息。

我不会做任何复杂的查询和东西——这会很昂贵。作为糟糕的研究等,我想要得到的只是遵循 MAG 模式的数据集;我将在我的桌面上运行任何免费的分析,但速度较慢。任何帮助将非常感激。

0 投票
0 回答
118 浏览

apache-spark - SparkSession 连接到 Databricks Azure

我正在使用 maven 和 scala 创建一个 spark 应用程序,该应用程序需要连接到 azure databricks 上的集群。我怎样才能让我的 sparksession 连接到 databricks 集群?

我看到了databricks-connect,但它使用 sbt 加载了一些 jar 文件。我不明白它是如何实现这种连接的。

我的用例需要根据请求在数据库集群上以编程方式运行火花作业,所以我需要能够在那里连接它。

0 投票
2 回答
173 浏览

python - Databricks sc.broadcast() 在本地与 Databricks 连接的等效项

我正在将一些代码从 Databricks 笔记本转移到本地的 Jupyter 笔记本中。

在 Databricks Notebook 中工作的以下代码在本地不工作。

这是我的本地代码:

出现错误:

sc.broadcast() 有什么替代方法吗?

我正在使用 Databricks 连接在本地运行我的代码:https ://docs.databricks.com/dev-tools/databricks-connect.html

0 投票
0 回答
905 浏览

databricks - 无法通过 DeltaTable.forPath 查看新创建的增量表

我创建了一个这样的表并插入了一些数据

我可以通过查看表格

但是当我这样做时

我看不到数据。但是当我尝试这种方法时

是真的。谁能解释我错过了什么?

此外,当我想做一个合并操作时,我收到了这个错误。

0 投票
0 回答
170 浏览

apache-spark - Databricks 连接:sparkContext.wholeTextFiles

我已经设置了 databricks-connect 版本 5.5.0。此运行时包括 Scala 2.11 和 Spark 2.4.3。我编写的所有 Spark 代码都已正确执行并且没有任何问题,直到我尝试调用sparkContext.wholeTextFiles. 我得到的错误如下:

解决该问题的一种尝试是迁移到最新的 Databricks 运行时 - 在撰写本文时它是 6.5。那没有帮助。我继续返回版本 - 6.4 和 6.3 - 因为它们使用不同的 Spark 版本但无济于事。

我尝试的另一件事是将"com.google.guava" % "guava" % "23.0"依赖项添加到我的build.sbt. 这本身会导致错误,例如:

我觉得沿着满足的道路以及以某种方式未包含在 jar 中的每个依赖项可能不是最佳选择。

我想知道是否有人有过类似的经历,如果有的话——他们是如何解决这个问题的。

如果有必要,我愿意提供更多背景信息。

谢谢!

0 投票
1 回答
311 浏览

azure - Databricks Notebook - Microsoft Azure - 附加到集群时自动完成功能不起作用

Databricks Notebook - Microsoft Azure - 当 Databricks Notebook 连接到集群时,自动完成功能不起作用。

有人可以分享任何解决此问题的建议吗?

[已编辑]

我有几个集群,我看到这种自动完成行为不仅仅适用于其中一个集群!关于何时发生这种情况的任何指示?

0 投票
1 回答
1909 浏览

python - 使用集成身份验证的 Databricks SQL Server 连接

我正在尝试使用 python 将我的 Databricks 集群连接到现有的 SQL Server 数据库。我想利用集成的身份验证方法。得到错误com.microsoft.sqlserver.jdbc.SQLServerException: This driver is not configured for integrated authentication.

0 投票
1 回答
163 浏览

apache-spark - Spark 隐式不适用于 dbutils 对象

为什么我不能做这样的事情?

引发错误

但它在 databricks 笔记本中运行良好。谁能建议我缺少什么?

我正在使用以下库 "com.databricks" %% "dbutils-api" % "0.0.4"