问题标签 [databricks-connect]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Databricks-connect Java 连接到本地而不是远程
我有一个连接到 Apache Spark 集群并执行一些操作的 Java 应用程序。我正在尝试使用 databricks-connect 7.3 连接到 Azure 上的 Databricks 集群。如果我从终端运行databricks-connect test
,一切正常。我正在关注他们的文档,我在 IntelliJ 中包含了 jar,spark.databricks.service.server.enabled true
在 Databricks 中添加到集群中,并使用以下内容创建了 SparkSession:
问题是此命令连接到在运行时实例化的本地集群,而不连接到远程 Databricks 集群。我错过了什么吗?
pyspark - 如何将 PySpark delta 模块与 Databricks-connect 一起使用?
我需要从 s3 存储中读取特定版本的 delta 文件,并且需要 delta 包。
使用databricks-connect运行代码时出现错误:
我尝试按照 Delta Lake Quickstart 文档中的建议更改配置
但没有结果。
数据砖连接版本 7.3.7
有没有其他方法可以导入delta模块?
databricks - 安装 databricks 时创建本地 sparksession
我成功安装了 databricks-connect 并且它对我来说工作正常,但由于某些原因,我想使用本地 SparkSession ,所以只需运行SparkSeesion.builder.getOrCreate()
它就会使用 databricks 集群而不是我笔记本电脑中的本地会话,任何想法请不要创建一个新的虚拟环境,
谢谢
databricks - 我可以在 databricks-connect 中有多个连接吗?
我已经在我的 PC 上设置了一个 miniconda python 环境,我在其中安装了 databricks-connect 包并使用 databricks-connect configure 配置了该工具,以连接到我在美国开发代码时要使用的 databricks 实例。
我需要连接到另一个不同的 databricks 实例以在欧盟开发代码,我认为我可以通过设置不同的 miniconda 环境并在该环境中安装 databricks-connect 并将该环境中的配置设置为指向来做到这一点到新的数据块实例。
唉,这没有用。当我在任一 miniconda 环境中查看 databricks-connect configure 时,我看到两者中的配置相同,这是我上次配置的配置。
因此,我的问题是:有没有办法同时拥有多个数据块连接连接并在两者之间切换而不必每次都重新配置?
感谢您的时间。
python - 升级集群的 Databricks Runtime 后调试 PySpark 时出错
我已将 Azure Databricks 集群从运行时 5.5LTS 更新到 7.3LTS。现在我在 VSCode 中调试时遇到错误。我已经像这样更新了我的 Anaconda 连接:
到目前为止一切顺利,但现在我正在尝试调试以下内容
在 上dbutils = DBUtils(spark.sparkContext)
,它会引发异常
发生异常:AttributeError 'SparkContext' 对象没有属性 'conf'
我已经尝试创建conf
但我仍然得到同样的错误。有人可以告诉我我做错了什么吗?
azure - 使用 pyspark 从小部件值向现有数据框添加列
我有一个数据框,我需要从正在传递的小部件值中添加一列。我正在尝试下面的代码,但无论如何它都没有帮助。当我们显示(pdf)时,我们还应该看到 ID 列也已添加。
上面的代码将所有空值推入列 ID。能否请你帮忙。我会请求专家帮助解决上述挑战
azure - ML 组件在指向 Azure Data Lake Store Gen2 的 Azure Databricks (7.3.9) 中不起作用
我在尝试通过处理本地 Pycharm 指向 Azure Databricks 集群的 Kmeans Elbow 方法将 Matplotlib 图存储在 Azure Data Lake Store Gen2 中时遇到问题。
对于下面的 ML 代码示例,我收到了错误消息。
弯头曲线:
import matplotlib.pyplot as plt
plt.savefig(graph_path, bbox_inches='tight')
找不到类 shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem。OSError:[Errno 22] 无效参数:'abfss://cluster-container@project.dfs.core.windows.net/project/output/Elbow-Curve-20210325-222650.png'
注意:当指向本地 spark 和本地文件夹结构时,代码运行没有任何问题,问题在于 Databricks 或 Azure Data Lake Store Gen2。
任何帮助深表感谢!
python - Databricks 在线程“main”java.lang.NoSuchMethodError 中连接到 IntelliJ + python 错误异常:
我试图将我的数据块与我的 IDE 连接起来
我的机器上没有下载 spark ad/或 scala,但我下载了 pyspark(pip install pyspark)。我构造了必要的环境变量并创建了一个文件夹 Hadoop,我在其中放置了一个文件夹 bin,我在其中放置了一个 winutils.exe 文件。
这是一个循序渐进的过程,在这个过程中,我的所有错误都缓慢而稳定地得到解决,除了最后一个错误:
给
所以第一个警告可能是因为我没有安装 hadoop/spark。但是,我读到只要 Windows 可执行文件 winutils.exe 在 Hadoop 的 bin 文件夹中,这应该可以工作。(在我在那个文件夹中有winutils之前,出现了其他错误,我通过添加winutils.exe文件来处理这些错误)所以这是关于线程'main'错误中的异常。
任何想法?
databricks - 如何在不运行 Databrick 集群的情况下访问 DeltaLake 表
我在 DataBricks 集群上创建了 DeltaLake 表。而且我能够从外部系统/应用程序访问这些表。尽管我需要始终保持集群正常运行才能访问表数据。问题:
集群关闭时是否可以访问 DeltaLake 表?
如果是,那我该如何设置
我试图查找文档。发现“对 DetaBrick 的高级访问”有一些表访问控制。否则禁用。它说:
启用表访问控制将允许用户控制谁可以选择、创建和修改他们创建的数据库、表、视图和函数。
我还找到了这个文档 ,我认为这不是我要求的选项。请建议
apache-spark - 将 Azure 数据块连接到 Cosmos DB Mongo API 时出错
我已经在 databricks 中安装了 Spark mongodb 连接器,并尝试执行如下示例代码:
其中 CONNECTION_STRING 采用以下格式:
但面临以下错误:
有没有人遇到过这个错误和可能的解决方案?